O estudo incluiu 21 modelos de IA generativa, como ChatGPT e Grok 4, e analisou 29 casos clínicos que são comumente utilizados para o treinamento médico. Esses casos englobavam uma variedade de informações, incluindo sintomas, resultados de exames e o histórico médico dos pacientes. Os modelos foram submetidos a um processo de avaliação que imitava as etapas que um estudante de medicina seguiria em um cenário real: inicialmente, eles deveriam apresentar uma lista de possíveis diagnósticos; em seguida, indicar quais exames seriam necessários para avançar; assim, chegariam ao diagnóstico final e, por fim, propusessem tratamentos.
Os resultados foram alarmantes. Na fase inicial de diagnóstico, as taxas de erro dos modelos de IA superaram 80%, com alguns sistemas apresentando até 90% ou até 100% de falhas. Ao observar a fase final, onde todas as informações e exames já estavam disponíveis, a taxa de erro caiu, mas ainda assim persistiu acima de 40%. Alguns modelos, porém, mostraram desempenho significativamente melhor, errando apenas 9% das vezes nesse estágio.
Apesar do melhor desempenho registrado pelo modelo Grok 4, desenvolvido pela xAI, que pertence ao empresário Elon Musk, os resultados ainda estavam 22% abaixo do esperado. Por outro lado, o modelo Gemini 1.5 Flash apresentou um desempenho bastante aquém do desejado, apresentando uma discrepância de 36%.
Esses dados ressaltam que, mesmo com os avanços nas tecnologias de IA, os sistemas atuais enfrentam limitações consideráveis, especialmente na fase inicial do diagnóstico. Essa etapa, que requer a consideração de diversas hipóteses, é crucial e erros nesse ponto podem ter consequências severas para a saúde do paciente. Com isso, a comunidade científica alertou sobre a necessidade de cautela ao integrar IA em ambientes clínicos, enfatizando que a supervisão humana continua sendo indispensável neste processo.






