Les découvertes du NIH mettent en lumière les risques et les avantages associés à l’intégration de l’IA dans les décisions médicales
juillet 23, 2024
Communiqué de presse
Mardi 23 juillet 2020
Le modèle d’IA a bien performé au quiz de diagnostic médical mais a commis des erreurs en expliquant les réponses.
GPT-4V est un modèle d’IA qui a commis de nombreuses erreurs dans la description des images médicales et dans l’explication du raisonnement derrière son diagnostic, même lorsqu’il était correct.NIH/NLM
Les chercheurs des National Institutes of Health (NIH) ont trouvé un modèle d’IA qui résolvait des questions de quiz conçues pour évaluer la capacité des professionnels de la santé à diagnostiquer les patients sur la base d’images cliniques et d’un court résumé textuel avec une grande précision. Les médecins évaluateurs ont cependant constaté que le modèle d’IA était inexact lorsqu’il s’agissait de décrire les images ou d’expliquer le raisonnement pour la réponse. Ces résultats mettent en lumière le potentiel de l’IA en milieu clinique. Ils ont été publiés dans Digital Medicine – npj. Des chercheurs de la National Library of Medicine of NIH (NLM), de New York, et de Weill Cornell Medicine ont dirigé cette étude.
L’étude a montré que l’IA n’était pas encore suffisamment avancée pour pouvoir se substituer à l’expertise humaine, indispensable à un diagnostic précis.
L’IA et les médecins humains ont répondu aux questions des patients Défi d’image du New England Journal of Medicine (NEJM). Il s’agit d’un défi en ligne qui demande à l’utilisateur de sélectionner le bon diagnostic en fonction de réponses à choix multiples. Les images sont réelles et les descriptions textuelles incluent des détails sur les symptômes et les apparences. Les chercheurs ont demandé au modèle d’IA 207 réponses aux questions relatives aux défis d’image, ainsi qu’une justification écrite pour étayer chacune d’entre elles. Il a été précisé dans l’invite que la justification écrite doit inclure la description de l’image, un résumé des connaissances médicales pertinentes à la question, ainsi qu’une explication étape par étape de la manière dont le modèle d’IA a sélectionné la réponse.
Les chercheurs ont recruté neuf médecins, tous de spécialités différentes, issus de diverses institutions. Ils ont répondu aux questions de deux manières : d’abord, en mode « livre fermé » (sans utiliser de sources externes telles que des sites Web), et ensuite, en mode « livre ouvert » (en utilisant des ressources en ligne). Les chercheurs ont ensuite donné aux médecins la bonne réponse, ainsi que la réponse et la justification d’IA. Les médecins ont ensuite évalué le modèle d’IA sur sa capacité à résumer des informations médicales, à décrire une image et à donner une explication étape par étape.
Les chercheurs ont constaté que le modèle d’IA ainsi que les médecins ont très bien réussi à choisir le bon diagnostic. Fait intéressant, les modèles d’IA sélectionnaient les diagnostics corrects plus fréquemment que les médecins lorsqu’ils utilisaient des environnements à livre fermé, mais les médecins qui utilisaient un logiciel à livre ouvert obtenaient de meilleurs résultats.
Le modèle d’IA, lorsqu’il est évalué par des médecins, commet souvent des erreurs dans la description des images médicales et dans l’explication du raisonnement derrière son diagnostic, même s’il a pris la bonne décision finale. Le modèle d’IA a reçu une photo du bras d’une personne présentant deux lésions. Le médecin pourrait facilement dire que les deux lésions sont causées par une seule affection. Le modèle d’IA n’a pas reconnu le diagnostic en raison de l’angle différent sous lequel les lésions apparaissaient.
Les chercheurs affirment que cette recherche soutient la nécessité d’évaluer davantage les technologies d’IA multimodale avant qu’elles ne soient introduites en milieu clinique.
Zhiyong Li, Ph.D., chercheur principal au NLM et auteur correspondant de l’étude, a déclaré : « Cette technologie peut aider les cliniciens à améliorer leurs capacités grâce à des informations basées sur les données qui pourraient conduire à une meilleure prise de décision clinique. »
Cette étude a utilisé un modèle d’IA appelé GPT-4V, qui peut combiner plusieurs types de données, notamment des images et du texte. Les chercheurs notent que cette petite étude met en lumière le potentiel de l’IA multimodale pour aider les médecins dans leurs décisions médicales. Il est nécessaire de faire davantage de recherches pour comparer l’exactitude de ces modèles à celle des médecins dans le diagnostic des patients.
La Harvard Medical School, le Massachusetts General Hospital et la Case Western Reserve University School of Medicine de Cleveland, l’Université de Californie à San Diego La Jolla et l’Université de l’Arkansas Little Rock ont tous collaboré à l’étude.
La National Library of Medicine est la plus grande bibliothèque de recherche biomédicale au monde. Il est également leader en science des données, en informatique biomédicale et en informatique biomédicale. NLM soutient et mène des recherches sur les méthodes d’enregistrement, de stockage et de récupération des informations sur la santé, ainsi que sur leur préservation et leur communication. NLM fournit des ressources et des outils utilisés par des millions de personnes chaque année pour analyser et accéder à des informations sur la biotechnologie moléculaire, la santé environnementale et la toxicologie. Plus d’informations peuvent être trouvées sur
https://www.nlm.nih.gov. Les National Institutes of Health :
NIH est l’agence de recherche médicale du ministère américain de la Santé et des Services sociaux. Il comprend 27 instituts et centres. Le NIH, l’agence nationale de recherche médicale, comprend 27 instituts et centres et fait partie du ministère américain de la Santé et des Services sociaux. Visitez NIH pour plus d’informations sur ses programmes. www.nih.gov .NIH… Transformer la découverte en soins de santé
(r)Se référer à ce qui suit :
Qiao Jin, et al. Les défauts cachés de la vision multimodale GPT-4 en médecine. Médecine numérique. DOI:
10.1038/s41746-024-01185-7 (2024). ###