Aplicação de Redes Neurais para Predição da Ocorrência de Eventos Cardiovasculares Adversos Maiores em Populações de Multicentros: Um Estudo com Dados Heterogêneos Padronizados

No dia 28 de Novembro de 2024, às 14h, aconteceu a defesa do Trabalho de Conclusão de Curso “Aplicação de Redes Neurais para Predição da Ocorrência de Eventos Cardiovasculares Adversos Maiores em Populações de Multicentros: Um Estudo com Dados Heterogêneos Padronizados” realizado pela aluna Mayara Martins Perroni. Participaram da banca o professor Paulo Mazzoncini de Azevedo Marques (orientador), e os membros titulares, Domingos Alves e Saulo da Silva Cordeiro (egresso do curso de informática biomédica).

Link da defesa: https://www.youtube.com/live/I_Y0pwqBiZk?si=pGVNn920wZaghd_k

Segue o resumo do TCC:

” O avanço da tecnologia da informação em saúde possibilitou a coleta e armazenamento de grandes volumes de dados em formatos variados, essenciais para apoiar a tomada de decisões clínicas. No entanto, a heterogeneidade desses dados pode comprometer o desempenho de modelos de aprendizado de máquina (AM), causando sobreajuste (overfitting) e limitando a generalização dos resultados. Para lidar com esse desafio, foi implementado no BigQuery um processo de Extraction, Transformation and Loading (ETL), que padronizou dados provenientes do Hospital das Clínicas (HC) de registros eletrônicos de saúde (RES), utilizando o Observational Medical Outcomes Partnership (OMOP)- Common Data Model (CDM), desenvolvido pela comunidade Observational Health Data Sciences and Informatics (OHDSI). Esse processo garantiu a uniformidade dos dados, permitindo sua integração em diferentes instituições de saúde. O objetivo foi desenvolver e testar um classificador para identificar fumantes a partir de textos livres extraídos de prontuários eletrônicos. Para isso, foram aplicadas duas abordagens de aprendizado de máquina: Large Language Models (LLM) e Term Frequency-Inverse Document Frequency (TF-IDF). Os textos, padronizados no OMOP-CDM, passaram por etapas de pré-processamento, categorização e análise comparativa. O LLM focou na interpretação semântica e contextual dos textos, enquanto o TF-IDF identificou padrões de palavras-chave associados ao tabagismo. Após os testes, ambos os modelos foram avaliados em termos de precisão, recall e capacidade de generalização, considerando a variabilidade dos dados. Os resultados indicam que o LLM oferece uma abordagem mais eficaz para categorizar fatores de risco em dados não estruturados, proporcionando uma análise mais profunda dos textos livres. Por outro lado, o TF-IDF se mostrou vantajoso em contextos com padrões de texto mais controlados e repetitivos. Este estudo contribui para o desenvolvimento de classificadores automáticos que podem ser integrados a sistemas de prontuários eletrônicos, aprimorando a categorização de informações críticas, como o histórico de tabagismo, e servindo de base para futuras análises de fatores de risco em registros padronizados.”