Comparação do desempenho de classificadores multiclasses em dados químicos: abordando o problema de sobreajuste com o teste de permutação Documento uri icon

  •  
  • Visão geral
  •  
  • Pesquisas
  •  
  • Identidade
  •  
  • Ver todos
  •  

tipo

  • master thesis

abstrato

  • O objetivo deste trabalho foi aplicar técnicas de reconhecimento de padrões em três conjuntos de dados disponíveis na literatura. O conjunto de dados denominado Glass Identification Dataset foi avaliado usando-se os modelos de classificação: Análise Discriminante Linear, Análise Discriminante Regularizada, Análise Discriminante de Mistura, Análise Discriminante de Mínimos Quadrados Parciais, Redes Neurais Artificiais, Máquina de Vetor de Suporte com função de núcleo radial, K-vizinhos mais próximos, Naive Bayes, Vetor de Quantização de Aprendizagem de Máquina, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória, C5.0 e Generalized Boosted Machine usando-se como parâmetros de mérito a exatidão e o índice Kappa. O classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o único modelo que forneceu 100% de exatidão e o índice Kappa igual a 1,000. Tendo em vista o resultado obtido, foi proposta uma nova abordagem para o teste de permutação para verificar a ocorrência de sobreajuste do modelo, a qual indicou a inexistência do sobreajuste. O conjunto de dados denominado Wine Quality Dataset foi dividido em Vinho Tinto e Vinho Branco. Para os dois conjuntos de vinho foram testados os modelos: Regressão por Mínimos Quadrados Parciais, Máquina de Vetor de Suporte com função de núcleo radial, Máquina de Vetor de Suporte com função linear, K-vizinhos mais próximos, Árvore de Classificação e Regressão, Bagging, Floresta Aleatória e Generalized Boosted Machine usando-se como parâmetros de mérito o erro absoluto médio (MAE), a raiz do erro quadrático médio (RMSE) e o coeficiente de determinação (R2). Para todos os modelos testados, os resultados foram insatisfatórios. Em função dos resultados dos modelos de regressão preditivos, foram empregados os mesmos modelos de classificação usados no conjunto de dados Glass Identification Dataset. Mais uma vez, o classificador Vetor de Quantização de Aprendizagem de Máquina (OLVQ1) foi o modelo com melhor desempenho indicando igual a exatidão de 99,54% e 99,33% e o índice Kappa igual a 0,9932 e 0,9896 para os Vinhos Branco e Tinto, respectivamente. Os resultados obtidos superaram a classificação dos trabalhos publicados anteriormente na literatura. Portanto, os experimentos computacionais mostram que o Vetor de Quantização de Aprendizagem de Máquina foi o único método capaz de classificar corretamente todos os três conjuntos de dados, atingindo a exatidão de aproximadamente 100% e o índice Kappa perfeito. Os resultados mostraram que o problema do excesso de ajuste estava ausente, o que foi confirmado pelo teste de Wilcoxon pareado
  • This work aimed to apply pattern recognition techniques to three sets of data available in the literature. The dataset called Glass Identification Dataset was evaluated using the classification models: Linear Discriminating Analysis, Regularized Discriminating Analysis, Mixture Discriminating Analysis, Discriminating Analysis of Partial Least Squares, Artificial Neural Networks, Support Vector Machine with the function of the radial core, K-nearest neighbors, Naive Bayes, Learning Vector Quantization, Classification, and Regression Tree, Bagging, Random Forest, C5.0 and Generalized Boosted Machine using accuracy and Kappa index as figures of merit. The Learning Vector Quantization (OLVQ1) classifier was the only model that provided 100% accuracy and the Kappa index equal to 1,000. Because of the result obtained, a new approach for the permutation test was proposed to verify the occurrence of overfitting of the model, which indicated the absence of overfitting. The dataset called Wine Quality Dataset was divided into Red Wine and White Wine. Regression models for both sets of wine were tested: Partial Least Squares, Support Vector Machine with radial base function, Support Vector Machine with a linear function, K-nearest neighbors, Classification and Regression Tree, Bagging, Random Forest and Generalized Boosted Machine using the mean absolute error (MAE), the root of the mean square error (RMSE) and the coefficient of determination (R2) as figures of merit. For all models tested, the results were unsatisfactory. Because of the results of the predictive regression models, the same classification models used in the Glass Identification Dataset data set were used. The obtained results outperformed the classification concerning previously works published in the literature. Once again, the Learning Vector Quantization (OLVQ1) classifier was the model with the best performance indicating the accuracy of 99.54% and 99.33% and the Kappa index equal to 0.9932 and 0.9896 for White and Red Wines, respectively. Therefore, the computational experiments show that the Learning Vector Quantification was the one method able to correctly classify all three data sets, reaching the accuracy of approximately 100% and the perfect Kappa index. The results showed that the overfitting problem was absent, which was confirmed by the pairwise Wilcoxon signed-rank test

data de publicação

  • 2020-01-01