Une étude scientifique récente, publiée dans la revue Nature Medicine, met en lumière les limites importantes des outils d’intelligence artificielle comme ChatGPT dans le domaine du diagnostic médical. Les recherches révèlent que ces modèles ne sont pas fiables pour identifier des pathologies et ne performent pas mieux qu’une simple recherche sur internet.
L’étude, menée auprès de 1 300 participants au Royaume-Uni, a testé plusieurs modèles d’IA grand public, dont ChatGPT, Llama de Meta et Command R+. Les chercheurs ont soumis aux modèles dix ensembles différents de symptômes correspondant à des diagnostics médicaux établis. Les résultats sont sans appel : les IA n’ont correctement identifié les conditions médicales qu’environ un tiers du temps. Ce taux de réussite est équivalent à celui obtenu par un groupe témoin qui utilisait uniquement des moteurs de recherche en ligne standard.
« Il y a beaucoup de battage médiatique autour de l’IA, mais elle n’est tout simplement pas prête à remplacer un médecin », a déclaré Rebecca Payne, chercheuse à l’Université d’Oxford et co-auteure de l’étude. Ses propos soulignent l’écart entre les promesses et la réalité des applications médicales de l’IA grand public.
L’étude met en évidence un fossé crucial entre la performance de l’IA dans des contextes théoriques et son application dans le monde réel. Si des recherches antérieures ont montré que l’IA pouvait réussir des questions d’examen médical, comme des QCM conçus pour les étudiants, les nouveaux résultats révèlent une lacune significative lorsque ces modèles doivent interagir avec des descriptions de symptômes réelles fournies par des personnes.
Ces travaux soulignent que, malgré les avancées technologiques, l’expertise et le jugement des professionnels de santé humains restent indispensables pour assurer un diagnostic précis et des soins adaptés aux patients.
