Comparação do desempenho de classificadores multiclasses em dados químicos: abordando o problema de sobreajuste com o teste de permutação

Exportar este item:

Use este identificador para citar ou linkar para este item: http://www.bdtd.uerj.br/handle/1/16408

Tipo do documento:	Dissertação
Título:	Comparação do desempenho de classificadores multiclasses em dados químicos: abordando o problema de sobreajuste com o teste de permutação
Título(s) alternativo(s):	Comparison of the performance of multiclass classifiers in chemical data: addressing the problem of overfitting with the permutation test
Autor:	Andrade, Bárbara Martins de
Primeiro orientador:	Luna, Aderval Severino
Segundo orientador:	Gois, Jefferson Santos de
Primeiro membro da banca:	Luna, Aderval Severino
Segundo membro da banca:	Gois, Jefferson Santos de
Terceiro membro da banca:	Xavier, Vinicius Layter
Quarto membro da banca:	Costa, André Luiz Hemerly
Quinto membro da banca:	Torres, Alexandre Rodrigues
Resumo:	O objetivo deste trabalho foi aplicar técnicas de reconhecimento de padrões em três conjuntos de dados disponíveis na literatura. O conjunto de dados denominado Glass Identification Dataset foi avaliado usando-se os modelos de classificação: Análise Discriminante Linear, Análise Discriminante Regularizada, Análise Discriminante de Mistura, Análise Discriminante de Mínimos Quadrados Parciais, Redes Neurais Artificiais, Máquina de Vetor de Suporte com função de núcleo radial, K-vizinhos mais próximos, Naive Bayes, Vetor de Quantização de Aprendizagem de Máquina, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória, C5.0 e Generalized Boosted Machine usando-se como parâmetros de mérito a exatidão e o índice Kappa. O classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o único modelo que forneceu 100% de exatidão e o índice Kappa igual a 1,000. Tendo em vista o resultado obtido, foi proposta uma nova abordagem para o teste de permutação para verificar a ocorrência de sobreajuste do modelo, a qual indicou a inexistência do sobreajuste. O conjunto de dados denominado Wine Quality Dataset foi dividido em Vinho Tinto e Vinho Branco. Para os dois conjuntos de vinho foram testados os modelos: Regressão por Mínimos Quadrados Parciais, Máquina de Vetor de Suporte com função de núcleo radial, Máquina de Vetor de Suporte com função linear, K-vizinhos mais próximos, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória e Generalized Boosted Machine usando-se como parâmetros de mérito o erro absoluto médio (MAE), a raiz do erro quadrático médio (RMSE) e o coeficiente de determinação (R2). Para todos os modelos testados, os resultados foram insatisfatórios. Em função dos resultados dos modelos de regressão preditivos, foram empregados os mesmos modelos de classificação usados no conjunto de dados Glass Identification Dataset. Mais uma vez, o classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o modelo com melhor desempenho indicando igual a exatidão de 99,54% e 99,33% e o índice Kappa igual a 0,9932 e 0,9896 para os Vinhos Branco e Tinto, respectivamente. Os resultados obtidos superaram a classificação dos trabalhos publicados anteriormente na literatura. Portanto, os experimentos computacionais mostram que o Vetor de Quantização de Aprendizagem de Máquina foi o único método capaz de classificar corretamente todos os três conjuntos de dados, atingindo a exatidão de aproximadamente 100% e o índice Kappa perfeito. Os resultados mostraram que o problema do excesso de ajuste estava ausente, o que foi confirmado pelo teste de Wilcoxon pareado
Abstract:	This work aimed to apply pattern recognition techniques to three sets of data available in the literature. The dataset called Glass Identification Dataset was evaluated using the classification models: Linear Discriminating Analysis, Regularized Discriminating Analysis, Mixture Discriminating Analysis, Discriminating Analysis of Partial Least Squares, Artificial Neural Networks, Support Vector Machine with the function of the radial core, K-nearest neighbors, Naive Bayes, Learning Vector Quantization, Classification, and Regression Tree, Bagging, Random Forest, C5.0 and Generalized Boosted Machine using accuracy and Kappa index as figures of merit. The Learning Vector Quantization (OLVQ1) classifier was the only model that provided 100% accuracy and the Kappa index equal to 1,000. Because of the result obtained, a new approach for the permutation test was proposed to verify the occurrence of overfitting of the model, which indicated the absence of overfitting. The dataset called Wine Quality Dataset was divided into Red Wine and White Wine. Regression models for both sets of wine were tested: Partial Least Squares, Support Vector Machine with radial base function, Support Vector Machine with a linear function, K-nearest neighbors, Classification and Regression Tree, Bagging, Random Forest and Generalized Boosted Machine using the mean absolute error (MAE), the root of the mean square error (RMSE) and the coefficient of determination (R2) as figures of merit. For all models tested, the results were unsatisfactory. Because of the results of the predictive regression models, the same classification models used in the Glass Identification Dataset data set were used. The obtained results outperformed the classification concerning previously works published in the literature. Once again, the Learning Vector Quantization (OLVQ1) classifier was the model with the best performance indicating the accuracy of 99.54% and 99.33% and the Kappa index equal to 0.9932 and 0.9896 for White and Red Wines, respectively. Therefore, the computational experiments show that the Learning Vector Quantification was the one method able to correctly classify all three data sets, reaching the accuracy of approximately 100% and the perfect Kappa index. The results showed that the overfitting problem was absent, which was confirmed by the pairwise Wilcoxon signed-rank test
Palavras-chave:	Reconhecimento de padrões Regressão Sobreajuste Teste de permutação Pattern Recognition Regression Overfitting Permutation test Quimiometria Vinho
Área(s) do CNPq:	ENGENHARIAS::ENGENHARIA QUIMICA::TECNOLOGIA QUIMICA
Idioma:	por
País:	Brasil
Instituição:	Universidade do Estado do Rio de Janeiro
Sigla da instituição:	UERJ
Departamento:	Centro de Tecnologia e Ciências::Instituto de Química
Programa:	Programa de Pós-Graduação em Engenharia Química
Citação:	ANDRADE, Bárbara Martins de. Comparação do desempenho de classificadores multiclasses em dados químicos: abordando o problema de sobreajuste com o teste de permutação. 2020. 131 f. Dissertação (Mestrado em Engenharia Química) - Faculdade de Química, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2020.
Tipo de acesso:	Acesso Aberto
URI:	http://www.bdtd.uerj.br/handle/1/16408
Data de defesa:	18-Fev-2020
Aparece nas coleções:	Mestrado em Engenharia Química

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertação - Bárbara Martins de Andrade - Completa.pdf		3,18 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas