Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/25042
Tipo do documento: Tese
Título: Synthetic sampling as a preprocessing to increase the efficiency of classification models on imbalanced datasets
Título(s) alternativo(s): Amostragem sintética como pré-processamento para aumentar a eficiência de modelos de classificação em conjuntos de dados desbalanceados
Autor: Rodrigues, Alexânder de Paula 
Primeiro orientador: Luna, Aderval Severino
Segundo orientador: Segundo Neto, José Licarion Pinto
Primeiro membro da banca: Gois, Jefferson Santos de
Segundo membro da banca: Sena, Marcelo Martins de
Terceiro membro da banca: Villa, Javier Erick Lobaton
Resumo: Este estudo propôs uma estratégia abrangente para auxiliar na seleção de algoritmos de amostragem sintética que melhorem o desempenho de modelos de reconhecimento de padrões com desbalanceamento das amostras entre as classes. Para demonstrar a eficácia desse enfoque, foram utilizados três conjuntos de dados de Relação Quantitativa Estrutura-Atividade (SAR, do inglês Quantitative Structure-Activity Relationship) desbalanceados. A estratégia envolveu a avaliação das métricas de desempenho de vários algoritmos de reconhecimento de padrões por meio de um planejamento experimental bem organizado. A análise dos fatores foi realizada individualmente para cada métrica de desempenho e simultaneamente usando a função de desejabilidade de Derringer e Suich. O principal objetivo foi obter informações e conhecimentos sobre o impacto da amostragem sintética nas métricas de desempenho dos modelos de reconhecimento de padrões, permitindo o desenvolvimento de uma estratégia de seleção que promova predições aprimoradas globalmente, ao mesmo tempo em que descarta abordagens que possam prejudicar os modelos. Para balancear os conjuntos de dados antes de construir os modelos, foi usado o preprocessamento de amostragem sintética. Dentre os preprocessamentos de amostragem sintética foram avaliados três métodos de subamostragem (subamostragem regular, subamostragem baseada em agrupamentos e Tomek-Links), três métodos de sobreamostragem (sobreamostragem regular, técnica de sobreamostragem minoritária sintética - SMOTE e Abordagem Adaptativa de Amostragem Sintética para Aprendizagem Desbalanceada - ADASYN) e dois métodos híbridos (técnica de sobreamostragem minoritária sintética Tomek-Links - SMOTE-TL e SPIDER). Dadas as características não-gaussianas dos conjuntos de dados, confirmadas pelo teste de Shapiro-Wilk multivariado, os modelos de classificação foram construídos usando algoritmos como Support Vector Machine com função de base radial, C5.0, Redes Neurais Artificiais, Extreme Gradient Boosting e Random Forest. Os resultados revelaram que os métodos de sobreamostragem tenderam a melhorar a sensibilidade e a precisão, enquanto os métodos de subamostragem aumentaram a precisão e a especificidade. Os métodos híbridos apresentaram melhorias em todas as métricas de desempenho. No entanto, alcançar um equilíbrio adequado entre as classes, especialmente com um número limitado de variáveis de amostra, mostrou-se mais desafiador. A comparação com os resultados dos dados do manuscrito original demonstrou que o pré-processamento adequado de amostragem pode de fato aprimorar as métricas de desempenho para conjuntos de dados desbalanceados.
Abstract: This study proposed a comprehensive strategy to assist in selecting synthetic sampling models that improve the performance of pattern recognition models with imbalanced class samples. Three imbalanced Quantitative Structure-Activity Relationship (SAR) datasets were used to demonstrate this approach's effectiveness. The strategy involved evaluating the performance metrics of various pattern recognition models through a well-organized experimental design. The factors were analyzed individually for each performance metric and simultaneously using the Derringer-Suich desirability function. The main objective was to gain insights into the impact of synthetic sampling on the performance metrics of pattern recognition models, enabling the development of a selection strategy that promotes globally enhanced predictions while discarding approaches that may harm the models. Synthetic sampling preprocessing was used to balance the datasets before building the models. Among the synthetic sampling preprocessings, three undersampling methods (regular undersampling, cluster-based undersampling, and Tomek-Links) were evaluated, along with three oversampling methods (regular oversampling, Synthetic Minority Oversampling Technique - SMOTE, and Adaptive Synthetic Sampling Approach for Imbalanced Learning - ADASYN), and two hybrid methods (Synthetic Minority Oversampling Technique Tomek-Links - SMOTE-TL and SPIDER). Given the non-Gaussian characteristics of the datasets, confirmed by the multivariate Shapiro-Wilk test, classification models were built using models such as Support Vector Machine with radial basis function, C5.0, Artificial Neural Networks, Extreme Gradient Boosting, and Random Forest. The results revealed that oversampling methods improved sensitivity and precision, while undersampling methods increased precision and specificity. Hybrid methods showed improvements in all performance metrics. However, achieving an adequate balance between classes proved more challenging, especially with a limited number of sample variables. Comparison with the original manuscript data results demonstrated that proper sampling preprocessing can enhance performance metrics for imbalanced datasets.
Palavras-chave: Chemometrics
SAR
Sampling methods
Imbalanced
Machine learning
Amostragem sintética
Dados desbalanceados
Quimiometria
Aprendizagem de máquina
Área(s) do CNPq: ENGENHARIAS::ENGENHARIA QUIMICA::PROCESSOS INDUSTRIAIS DE ENGENHARIA QUIMICA
Idioma: por
País: Brasil
Instituição: Universidade do Estado do Rio de Janeiro
Sigla da instituição: UERJ
Departamento: Centro de Tecnologia e Ciências::Instituto de Química
Programa: Programa de Pós-Graduação em Engenharia Química
Citação: RODRIGUES, Alexânder de Paula. Synthetic sampling as a preprocessing to increase the efficiency of classification models on imbalanced datasets. 2025. 165 f. Tese (Doutorado em Engenharia Química) - Instituto de Química, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2024.
Tipo de acesso: Acesso Aberto
URI: http://www.bdtd.uerj.br/handle/1/25042
Data de defesa: 26-Set-2025
Aparece nas coleções:Doutorado em Engenharia Química



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.