Pesquisadores do CHU Sainte-Justine e do Montreal Children’s Hospital fizeram 20 perguntas médicas ao ChatGPT. O chatbot forneceu respostas de qualidade limitada, incluindo erros factuais e referências fabricadas, como mostram os resultados do estudo publicado na Mayo Clinic Proceedings: Digital Health.
“Esses resultados são alarmantes, visto que a confiança é um pilar da comunicação científica. Os usuários do ChatGPT devem prestar atenção especial às referências fornecidas antes de integrá-las aos manuscritos médicos”, diz a Dra. Jocelyn Gravel, principal autora do estudo e médica de emergência do CHU Sainte-Justine.
Descobertas impressionantes
Os pesquisadores tiraram suas dúvidas de estudos existentes e pediram ao ChatGPT que apoiasse suas respostas com referências. Eles então pediram aos autores dos artigos que avaliassem as respostas do software em uma escala de 0 a 100%.
Dos 20 autores, 17 concordaram em revisar as respostas do ChatGPT. Eles as consideraram de qualidade questionável (pontuação média de 60%). Além disso, também encontraram erros factuais maiores (cinco) e menores (sete). Por exemplo, o software sugeria a administração de um anti-inflamatório por injeção, quando deveria ser engolido. O ChatGPT também superestimou a carga global de mortalidade associada às infecções por Shigella por um fator de dez.
Das referências fornecidas, 69% foram fabricadas, mas pareciam reais. A maioria das citações falsas (95%) usou nomes de autores que já haviam publicado artigos sobre um assunto relacionado ou vieram de organizações reconhecidas, como os Centros de Controle e Prevenção de Doenças ou a Food and Drug Administration. Todas as referências traziam um título relacionado ao assunto da pergunta e usavam nomes de jornais ou sites conhecidos. Mesmo algumas das referências reais continham erros (oito em 18).
ChatGPT explica
Quando questionado sobre a precisão das referências fornecidas, o ChatGPT deu respostas variadas. Em um caso, afirmou: “As referências estão disponíveis no Pubmed” e forneceu um link da web. Esse link referia-se a outras publicações não relacionadas à questão. Em outro momento, o software respondeu: “Eu me esforço para fornecer as informações mais precisas e atualizadas disponíveis para mim, mas podem ocorrer erros ou imprecisões”.
“A importância da referência adequada na ciência é inegável. A qualidade e a amplitude das referências fornecidas em estudos autênticos demonstram que os pesquisadores realizaram uma revisão completa da literatura e têm conhecimento sobre o assunto. Esse processo permite a integração das descobertas no contexto do trabalho anterior, um aspecto fundamental do avanço da pesquisa médica. Deixar de fornecer referências é uma coisa, mas criar referências falsas seria considerado fraudulento para os pesquisadores”, diz o Dr. Esli Osmanlliu, médico de emergência do Hospital Infantil de Montreal e cientista do Child Health and Programa de Desenvolvimento Humano no Research Institute of the McGill University Health Centre.
“Pesquisadores que usam o ChatGPT podem ser enganados por informações falsas porque referências claras, aparentemente coerentes e estilisticamente atraentes, podem ocultar conteúdo de baixa qualidade”, acrescenta o Dr. Osmanlliu.
Este é o primeiro estudo a avaliar a qualidade e precisão das referências fornecidas pelo ChatGPT, apontam os pesquisadores.