A aplicação de modelos de aprendizado de máquina na análise de registros eletrônicos de saúde (EHR) tem o potencial de revolucionar a previsão de diagnósticos. No entanto, um desafio significativo reside na inconsistência do acompanhamento dos pacientes, levando a dados incompletos e resultados potencialmente enviesados. Isso se torna particularmente crítico em previsões de longo prazo, como no caso de diagnósticos de Transtorno do Déficit de Atenção com Hiperatividade (TDAH) e autismo, onde muitos pacientes podem não ter um acompanhamento contínuo durante o período necessário para observar o resultado.
Um estudo recente investigou as limitações dos modelos de classificação binária (BC) para a previsão de diagnósticos de longo prazo a partir de EHR, comparando-os com uma abordagem alternativa chamada tempo-para-evento (TTE), especificamente a rede neural de tempo discreto (DTNN). Os resultados demonstraram que os modelos BC tendem a subestimar a probabilidade de diagnósticos e atribuir pontuações de probabilidade mais baixas a indivíduos com dados censurados precocemente. As estratégias de filtragem comuns, como aquelas baseadas no ano de nascimento ou na duração do acompanhamento, não foram eficazes para corrigir esses vieses de forma adequada.
Em contrapartida, as abordagens TTE, e em especial o DTNN, demonstraram mitigar o viés da distribuição de censura, resultando em um desempenho superior em termos de discriminação e calibração. O DTNN também se mostrou mais preciso na previsão da prevalência clínica, indicando que reflete com maior precisão as tendências clínicas reais. Esses resultados sugerem que os profissionais de aprendizado de máquina devem reconhecer as limitações da classificação binária para a previsão de diagnósticos de longo prazo e considerar a adoção de abordagens TTE, como o DTNN, para maximizar o desempenho da previsão e mitigar os efeitos da censura de dados.
Origem: Link