Uma equipe de pesquisadores médicos da Escola de Medicina e Odontologia Schulich da Western University descobriu que o ChatGPT ainda não está pronto para ser usado em ambientes de diagnóstico para doenças humanas. Pesquisas anteriores e evidências anedóticas mostraram que modelos de linguagem grande (LLM) como o ChatGPT podem fornecer resultados impressionantes em algumas solicitações, como escrever um poema de amor para a namorada, mas também podem retornar respostas incorretas ou bizarras.
Por isso, especialistas sugerem cautela ao usar os resultados produzidos por um desses modelos para tópicos importantes como conselhos de saúde. No novo estudo, pesquisadores do Canadá avaliaram quão bem o ChatGPT diagnosticaria doenças humanas se apresentasse sintomas de pacientes reais, conforme descrito em estudos de casos reais.
Eles escolheram 150 estudos de caso do Medscape, um site online criado e usado por profissionais médicos para fins informativos e educacionais, que foram acompanhados por um diagnóstico preciso e conhecido. Eles treinaram o ChatGPT 3.5 com dados pertinentes, como histórico do paciente, resultados laboratoriais e resultados de exames de consultório, e então solicitaram um diagnóstico e/ou um plano de tratamento.
Depois que a ferramenta retornou uma resposta, a equipe de pesquisa classificou seus resultados com base no quão próximo chegou do diagnóstico correto. Eles também avaliaram o quão bem ele relatou sua justificativa para chegar ao diagnóstico, incluindo a oferta de citações – uma parte importante do diagnóstico médico. Eles então calcularam a média das pontuações recebidas para todos os estudos de caso e os resultados, publicados no site de acesso aberto PLOS ONE, mostraram que o ChatGPT deu um diagnóstico correto apenas 49% das vezes.
Os investigadores observam que, embora o ChatGPT tenha obtido uma pontuação fraca, fez um bom trabalho ao descrever como chegou ao diagnóstico – uma característica que pode ser útil para estudantes de medicina, por exemplo. Eles também observaram que a inteligência artificial era razoavelmente bom em descartar possíveis doenças. No entanto, concluem que essa ferramenta ainda não está pronta para uso em ambientes de diagnóstico.
Um estudo anterior, publicado no JAMA Pediatrics em janeiro, apresentou uma taxa de acerto ainda menor para diagnósticos pediátricos. O trabalho, conduzido por um trio de especialistas do Centro Médico para Crianças Cohen, em Nova York, nos EUA, concluiu que a taxa de acerto para diagnóstico de doenças em crianças foi de somente 17% de acerto, e 83% de erro.
Ainda assim, os pesquisadores ponderam que “a maioria dos diagnósticos incorretos gerados pelo chatbot pertenciam ao mesmo sistema de órgãos do diagnóstico correto (por exemplo, psoríase e dermatite seborreica).
Por outro lado, existem trabalhos que apontam taxas altas de acerto. Um deles, que contou com pesquisadores da Universidade de Harvard, nos Estados Unidos, analisou 36 casos clínicos e apresentou uma precisão de 71,7% ao identificar os diagnósticos. Existem também casos específicos em que a ferramenta foi capaz de dar um diagnóstico preciso, quando médicos falharam.
Um menino foi diagnosticado com uma doença rara pelo ChatGPT depois de em 17 médicos, ao longo de três anos, falharam. Cansada de ver o filho doente e sem uma solução, a mãe compartilhou com o ChatGPT todos os sintomas e dados das ressonâncias magnéticas que a criança realizou ao longo dos anos.
Imediatamente, a ferramenta sugeriu um diagnóstico: síndrome da medula ancorada, condição rara que faz com que a medula vertebral se fixe de forma anormal ao canal, restringindo o fluxo sanguíneo à medida que as crianças crescem. Depois de receber o diagnóstico, o menino passou por uma cirurgia para corrigir a medula e se recupera com sucesso.
Diante disso, especialistas acreditam que há muito potencial para o uso desse tipo da ferramenta na medicina, só não agora. Em reportagem sobre o assunto, especialistas disseram que nos próximos 10 anos existirá ferramentas tão potentes capazes de analisar informações de exames, históricos de pacientes e dados genéticos para fornecer, com precisão, sugestões de diagnósticos e melhores tratamentos para o profissional.