| Compartilhamento |
|
Use este identificador para citar ou linkar para este item:
http://www.bdtd.uerj.br/handle/1/25042| Tipo do documento: | Tese |
| Título: | Synthetic sampling as a preprocessing to increase the efficiency of classification models on imbalanced datasets |
| Título(s) alternativo(s): | Amostragem sintética como pré-processamento para aumentar a eficiência de modelos de classificação em conjuntos de dados desbalanceados |
| Autor: | Rodrigues, Alexânder de Paula ![]() |
| Primeiro orientador: | Luna, Aderval Severino |
| Segundo orientador: | Segundo Neto, José Licarion Pinto |
| Primeiro membro da banca: | Gois, Jefferson Santos de |
| Segundo membro da banca: | Sena, Marcelo Martins de |
| Terceiro membro da banca: | Villa, Javier Erick Lobaton |
| Resumo: | Este estudo propôs uma estratégia abrangente para auxiliar na seleção de algoritmos de amostragem sintética que melhorem o desempenho de modelos de reconhecimento de padrões com desbalanceamento das amostras entre as classes. Para demonstrar a eficácia desse enfoque, foram utilizados três conjuntos de dados de Relação Quantitativa Estrutura-Atividade (SAR, do inglês Quantitative Structure-Activity Relationship) desbalanceados. A estratégia envolveu a avaliação das métricas de desempenho de vários algoritmos de reconhecimento de padrões por meio de um planejamento experimental bem organizado. A análise dos fatores foi realizada individualmente para cada métrica de desempenho e simultaneamente usando a função de desejabilidade de Derringer e Suich. O principal objetivo foi obter informações e conhecimentos sobre o impacto da amostragem sintética nas métricas de desempenho dos modelos de reconhecimento de padrões, permitindo o desenvolvimento de uma estratégia de seleção que promova predições aprimoradas globalmente, ao mesmo tempo em que descarta abordagens que possam prejudicar os modelos. Para balancear os conjuntos de dados antes de construir os modelos, foi usado o preprocessamento de amostragem sintética. Dentre os preprocessamentos de amostragem sintética foram avaliados três métodos de subamostragem (subamostragem regular, subamostragem baseada em agrupamentos e Tomek-Links), três métodos de sobreamostragem (sobreamostragem regular, técnica de sobreamostragem minoritária sintética - SMOTE e Abordagem Adaptativa de Amostragem Sintética para Aprendizagem Desbalanceada - ADASYN) e dois métodos híbridos (técnica de sobreamostragem minoritária sintética Tomek-Links - SMOTE-TL e SPIDER). Dadas as características não-gaussianas dos conjuntos de dados, confirmadas pelo teste de Shapiro-Wilk multivariado, os modelos de classificação foram construídos usando algoritmos como Support Vector Machine com função de base radial, C5.0, Redes Neurais Artificiais, Extreme Gradient Boosting e Random Forest. Os resultados revelaram que os métodos de sobreamostragem tenderam a melhorar a sensibilidade e a precisão, enquanto os métodos de subamostragem aumentaram a precisão e a especificidade. Os métodos híbridos apresentaram melhorias em todas as métricas de desempenho. No entanto, alcançar um equilíbrio adequado entre as classes, especialmente com um número limitado de variáveis de amostra, mostrou-se mais desafiador. A comparação com os resultados dos dados do manuscrito original demonstrou que o pré-processamento adequado de amostragem pode de fato aprimorar as métricas de desempenho para conjuntos de dados desbalanceados. |
| Abstract: | This study proposed a comprehensive strategy to assist in selecting synthetic sampling models that improve the performance of pattern recognition models with imbalanced class samples. Three imbalanced Quantitative Structure-Activity Relationship (SAR) datasets were used to demonstrate this approach's effectiveness. The strategy involved evaluating the performance metrics of various pattern recognition models through a well-organized experimental design. The factors were analyzed individually for each performance metric and simultaneously using the Derringer-Suich desirability function. The main objective was to gain insights into the impact of synthetic sampling on the performance metrics of pattern recognition models, enabling the development of a selection strategy that promotes globally enhanced predictions while discarding approaches that may harm the models. Synthetic sampling preprocessing was used to balance the datasets before building the models. Among the synthetic sampling preprocessings, three undersampling methods (regular undersampling, cluster-based undersampling, and Tomek-Links) were evaluated, along with three oversampling methods (regular oversampling, Synthetic Minority Oversampling Technique - SMOTE, and Adaptive Synthetic Sampling Approach for Imbalanced Learning - ADASYN), and two hybrid methods (Synthetic Minority Oversampling Technique Tomek-Links - SMOTE-TL and SPIDER). Given the non-Gaussian characteristics of the datasets, confirmed by the multivariate Shapiro-Wilk test, classification models were built using models such as Support Vector Machine with radial basis function, C5.0, Artificial Neural Networks, Extreme Gradient Boosting, and Random Forest. The results revealed that oversampling methods improved sensitivity and precision, while undersampling methods increased precision and specificity. Hybrid methods showed improvements in all performance metrics. However, achieving an adequate balance between classes proved more challenging, especially with a limited number of sample variables. Comparison with the original manuscript data results demonstrated that proper sampling preprocessing can enhance performance metrics for imbalanced datasets. |
| Palavras-chave: | Chemometrics SAR Sampling methods Imbalanced Machine learning Amostragem sintética Dados desbalanceados Quimiometria Aprendizagem de máquina |
| Área(s) do CNPq: | ENGENHARIAS::ENGENHARIA QUIMICA::PROCESSOS INDUSTRIAIS DE ENGENHARIA QUIMICA |
| Idioma: | por |
| País: | Brasil |
| Instituição: | Universidade do Estado do Rio de Janeiro |
| Sigla da instituição: | UERJ |
| Departamento: | Centro de Tecnologia e Ciências::Instituto de Química |
| Programa: | Programa de Pós-Graduação em Engenharia Química |
| Citação: | RODRIGUES, Alexânder de Paula. Synthetic sampling as a preprocessing to increase the efficiency of classification models on imbalanced datasets. 2025. 165 f. Tese (Doutorado em Engenharia Química) - Instituto de Química, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2024. |
| Tipo de acesso: | Acesso Aberto |
| URI: | http://www.bdtd.uerj.br/handle/1/25042 |
| Data de defesa: | 26-Set-2025 |
| Aparece nas coleções: | Doutorado em Engenharia Química |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| CRN - Alexânder de Paula Rodrigues - 2025.pdf | 302,24 kB | Adobe PDF | Baixar/Abrir Pré-Visualizar Solictar uma cópia | |
| Termo - Alexânder de Paula Rodrigues - 2025.pdf | 242,38 kB | Adobe PDF | Baixar/Abrir Pré-Visualizar Solictar uma cópia | |
| Tese - Alexander de Paula Rodrigues - Completa - 2024.pdf | 7,68 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.

