A criação de sistemas computacionais inteligentes tem sido um dos desafios tecnológicos mais ambiciosos e controversos de nossa era. Podem ser destacados os sistemas de suporte à decisão clínica, cujo objetivo principal é auxiliar os especialistas no processo de investigação médica, possibilitando assim diagnósticos mais precisos. O processo de diagnóstico médico não é uma tarefa fácil, dada a diversidade de doenças, sintomas, exames, além da complexidade da fisiologia humana. Especificamente em relação ao diagnóstico de síndromes demenciais, tal dificuldade é ainda maior devido à inexistência de um exame específico para determinar o tipo de demência, demandando assim uma extensa investigação clínica através de uma série de consultas, avaliações e exames. No presente trabalho é desenvolvido um modelo híbrido de mineração, envolvendo a mineração de textos integrada à mineração de dados estruturados. Esse modelo visa auxiliar os especialistas no processo de diagnóstico de pacientes com suspeita clínica de demência. Os dados utilizados na pesquisa são provenientes de informações contidas nos prontuários de 3281 pacientes atendidos pelo Centro de Alzheimer e Parkinson (CDAP) em Campos dos Goytacazes/RJ, coletadas a partir da aplicação desenvolvida. Após aplicação de técnicas relacionadas à etapa de pré-processamento dos dados, foram selecionadas 605 instâncias com 18 diferentes atributos para a etapa de mineração. Esta etapa baseou-se em metodologia proposta orientada ao domínio do problema (D3M), por intermédio de utilização de técnicas de mineração de textos de maneira a estruturar informações em formato livre contidas no campo Histórico Pregresso do Paciente (HPP), para subsequente integração ao conjunto de atributos previamente mencionado. Posteriormente, foi aplicado um conjunto de algoritmos de classificação baseado nas técnicas de naïve bayes, redes bayesianas e árvores de decisão para obtenção de modelos preditivos. De modo a melhorar a precisão dos modelos gerados, foram utilizados métodos de grupos (Bagging, Boosting e Florestas Aleatórias) e uma metodologia para tornar as classes uniformemente distribuídas (holdout com amostragem estratificada), cujas implementações estão disponíveis na ferramenta Weka (Waikato Environent for Knowledge Analysis). Foram feitas comparações entre as métricas relacionadas à precisão do modelo híbrido proposto com o modelo envolvendo apenas a mineração de dados estruturados. Os resultados evidenciaram as características mais pertinentes para o processo de diagnóstico, bem como a maior eficácia do modelo híbrido desenvolvido em representar os critérios diagnósticos para as patologias de interesse do presente trabalho.
The creation of intelligent computational systems has been one of the most ambitious and controversial technological challenges of our era. We can highlight the support clinical decision systems, which aim at helping experts in medical research process, thus enabling more accurate diagnoses. The medical diagnosis process is not an easy task, given the diversity of diseases, symptoms, tests, as well as the complexity of human physiology. Specifically in relation to the diagnosis of dementia, such difficulty is even greater given the lack of a specific test to determine the type of dementia, thus requiring extensive clinical research through a series of appointment, assessments and exams. In the present work is developed a hybrid model of mining involving the integrated text mining structured data mining. This model aims to assist the experts in the process of diagnosis of patients with clinical suspicion of dementia. The data used in the research come from information contained in the medical records of 3281 patients attended in the Center for Alzheimer's and Parkinson (CDAP) in Campos dos Goytacazes/RJ, Brazil, collected from the developed application. After data preprocessing, 605 records with 18 different attributes were selected for the mining stage. This step was based on the domain-driven data- mining (D3M) methodology, and text mining techniques were applied in order to structure the free text format information contained in the Patient's Past History (HPP) field, for subsequent integration into the previously mentioned set of the attributes. Later we used a set of classification algorithms based on naïve Bayes, Bayesian networks and decision trees techniques in order to obtain predictive models. Ensemble methods (Bagging, Boosting and Random Forests) were employed to improve the accuracy of the models. Further, a methodology (holdout with stratified sampling) was applied to generate equally distributed classes. All implementations of those techniques are available in the Weka (Waikato for Knowledge Environent analysis) tool. Comparisons were made between the metrics related to the accuracy of the proposed hybrid model with the model involving only structured data mining. These results showed the effectiveness of the hybrid model proposed to represent the diagnostic criteria for the pathologies of interest in this work.