Illustration par DALL·E
The New York Times – Les chatbots de l’IA battent les médecins dans le diagnostic médical, le 17 novembre 2024
Une petite étude montre que ChatGPT surpasse les médecins humains lorsqu’il évalue des cas médicaux, même lorsque ces médecins utilisent le chatbot.
Par Gina Kolata
17 novembre 2024
Le Dr Adam Rodman, expert en médecine interne au Beth Israel Deaconess Medical Center de Boston, s’attendait à ce que les chatbots conçus pour utiliser l’intelligence artificielle aident les médecins à diagnostiquer les maladies.
Or, il se trompait. En fait, dans une étude que le Dr Rodman a contribué à concevoir, les médecins qui ont bénéficié de ChatGPT-4 en même temps que des ressources conventionnelles n’ont fait que légèrement mieux que les médecins qui n’ont pas eu accès au chatbot. Et, à la surprise des chercheurs, ChatGPT seul a obtenu de meilleurs résultats que les médecins. « J’ai été choqué », a déclaré le Dr Rodman.
Le chatbot, de la société OpenAI, a obtenu un score moyen de 90 % lorsqu’il a diagnostiqué un problème médical à partir d’un rapport de cas et qu’il a expliqué son raisonnement. Les médecins désignés au hasard pour utiliser le chatbot ont obtenu un score moyen de 76 %. Ceux qui ont été désignés au hasard pour ne pas l’utiliser ont obtenu une note moyenne de 74 %.
L’étude ne s’est pas limitée aux performances supérieures du chatbot. Elle a mis en évidence la confiance parfois inébranlable des médecins dans le diagnostic qu’ils ont posé, même lorsqu’un chatbot peut en suggérer un meilleur.
L’étude a également montré que si les médecins sont exposés aux outils de l’intelligence artificielle dans le cadre de leur travail, peu d’entre eux savent comment exploiter les capacités des chatbots. En conséquence, ils n’ont pas su tirer parti de la capacité des systèmes d’IA à résoudre des problèmes de diagnostic complexes et à fournir des explications sur leurs diagnostics.
Les systèmes d’IA devraient être des « prolongateurs de médecin », a déclaré le Dr Rodman, offrant de précieux seconds avis sur les diagnostics. Mais il semble qu’il y ait encore du chemin à parcourir avant que ce potentiel ne se concrétise.
Cas d’école, cas d’avenir
L’expérience a porté sur 50 médecins, un échantillon d’internes et de praticiens recrutés par l’intermédiaire de quelques grands systèmes hospitaliers américains, et a été publiée le mois dernier dans la revue JAMA Network Open.
Les sujets testés se sont vu soumettre six cas et ont été notés sur leur capacité à suggérer des diagnostics et à expliquer pourquoi ils les privilégiaient ou les excluaient. Ils ont également été notés sur leur capacité à poser le bon diagnostic final.
Les évaluateurs étaient des experts médicaux qui ne voyaient que les réponses des participants, sans savoir si elles provenaient d’un médecin avec ChatGPT, d’un médecin sans ChatGPT ou de ChatGPT lui-même.
Les études de cas utilisées dans l’étude étaient basées sur des patients réels et font partie d’un ensemble de 105 cas utilisés par les chercheurs depuis les années 1990. Les cas n’ont intentionnellement jamais été publiés afin que les étudiants en médecine et d’autres personnes puissent être testés sur ces cas sans en avoir connaissance à l’avance. Cela signifie également que ChatGPT n’a pas pu être formé sur ces cas.
Mais pour illustrer l’étude, les chercheurs ont publié l’un des six cas sur lesquels les médecins ont été testés, ainsi que les réponses d’un médecin ayant obtenu un score élevé et d’un médecin ayant obtenu un score faible aux questions du test sur ce cas.
Ce cas test concernait un patient de 76 ans qui souffrait de fortes douleurs dans le bas du dos, les fesses et les mollets lorsqu’il marchait. Ces douleurs sont apparues quelques jours après qu’il ait subi une angioplastie par ballonnet pour élargir une artère coronaire. Il avait été traité par l’héparine, un anticoagulant, pendant 48 heures après l’intervention.
L’homme s’est plaint d’être fiévreux et fatigué. Son cardiologue a effectué des examens de laboratoire qui ont révélé une nouvelle anémie et une accumulation d’azote et d’autres déchets rénaux dans son sang. L’homme avait subi un pontage pour une maladie cardiaque dix ans plus tôt. La présentation du cas se poursuit avec les détails de l’examen physique de l’homme, puis avec les résultats des tests de laboratoire.
Le bon diagnostic était celui d’une embolie de cholestérol, une affection dans laquelle des éclats de cholestérol se détachent de la plaque dans les artères et bloquent les vaisseaux sanguins.
Les participants ont été invités à proposer trois diagnostics possibles, avec preuves à l’appui pour chacun d’entre eux. Ils ont également été invités à indiquer, pour chaque diagnostic possible, les résultats qui ne l’étayent pas ou qui étaient attendus mais absents.
Les participants ont également été invités à fournir un diagnostic final. Ils devaient ensuite citer jusqu’à trois étapes supplémentaires qu’ils adopteraient dans leur processus de diagnostic.
Tout comme le diagnostic du cas publié, les diagnostics des cinq autres cas de l’étude n’ont pas été faciles à établir. Mais ils n’étaient pas non plus rares au point d’être presque inconcevables. Pourtant, les médecins ont en moyenne fait moins bien que le chatbot.
Les chercheurs se sont demandés ce qui se passait. La réponse semble dépendre de la manière dont les médecins établissent un diagnostic et dont ils utilisent un outil comme l’intelligence artificielle.
Le médecin dans la machine
Comment les médecins diagnostiquent-ils les patients ?
Selon le Dr Andrew Lea, historien de la médecine au Brigham and Women’s Hospital, qui n’a pas participé à l’étude, le problème est que « nous ne savons pas vraiment comment les médecins pensent ».
Lorsqu’ils décrivent comment ils sont parvenus à un diagnostic, les médecins disent « intuition » ou « sur la base de mon expérience », explique le Dr Lea.
Ce type d’imprécision a posé un défi aux chercheurs pendant des décennies, alors qu’ils essayaient de créer des programmes informatiques capables de penser comme un médecin.
Cette quête a commencé il y a près de 70 ans. « Depuis qu’il existe des ordinateurs, des gens essaient de les utiliser pour établir des diagnostics », explique le Dr Lea.
L’une des tentatives les plus ambitieuses a débuté dans les années 1970 à l’université de Pittsburgh. Des informaticiens y ont recruté le Dr Jack Myers, président du département de médecine interne de l’école de médecine, connu pour être un maître du diagnostic. Il avait une mémoire photographique et passait 20 heures par semaine à la bibliothèque médicale, essayant d’apprendre tout ce qui était connu en médecine.
Le Dr Myers recevait les détails médicaux des cas et expliquait son raisonnement lorsqu’il réfléchissait aux diagnostics. Les informaticiens ont converti ses chaînes logiques en code. Le programme qui en a résulté, appelé INTERNIST-1, comprenait plus de 500 maladies et environ 3 500 symptômes de maladies.
Pour le tester, les chercheurs lui ont soumis des cas tirés du New England Journal of Medicine. « L’ordinateur s’est très bien débrouillé », a déclaré le Dr Rodman. Ses performances « étaient probablement meilleures que celles d’un être humain », a-t-il ajouté.
Mais INTERNIST-1 n’a jamais décollé. Il était difficile à utiliser et il fallait plus d’une heure pour lui fournir les informations nécessaires à l’établissement d’un diagnostic. De plus, ses créateurs ont noté que « la forme actuelle du programme n’est pas suffisamment fiable pour des applications cliniques ».
La recherche s’est poursuivie. Au milieu des années 1990, une demi-douzaine de programmes informatiques tentaient d’établir des diagnostics médicaux. Aucun ne s’est généralisé. « Il ne s’agit pas seulement d’être convivial, il faut aussi que les médecins lui fassent confiance », explique le Dr Rodman.
Face à l’incertitude qui entoure le mode de pensée des médecins, les experts ont commencé à se demander s’ils devaient s’en préoccuper. Dans quelle mesure est-il important d’essayer de concevoir des programmes informatiques capables de poser des diagnostics de la même manière que les humains ? « On s’est demandé dans quelle mesure un programme informatique devait imiter le raisonnement humain », a déclaré le Dr Lea. « Pourquoi ne pas jouer sur la force de l’ordinateur ? »
L’ordinateur peut ne pas être en mesure d’expliquer clairement son processus de décision, mais est-ce important s’il parvient à poser le bon diagnostic ?
La perspective a changé avec l’avènement de grands modèles de langage comme ChatGPT. Ils ne tentent pas explicitement de reproduire la pensée d’un médecin ; leurs capacités de diagnostic proviennent de leur aptitude à prédire les mots.
« L’interface de chat est l’application qui tue », a déclaré le Dr Jonathan H. Chen, médecin et informaticien à Stanford, l’un des auteurs de la nouvelle étude. « Nous pouvons introduire tout un dossier dans l’ordinateur », a-t-il ajouté. « Il y a quelques années encore, les ordinateurs ne comprenaient pas le langage.
Mais de nombreux médecins n’exploitent peut-être pas ce potentiel.
Erreur de manipulation
Après avoir été initialement choqué par les résultats de la nouvelle étude, le Dr Rodman a décidé de creuser un peu plus les données et d’examiner les journaux des messages échangés entre les médecins et ChatGPT. Les médecins ont dû voir les diagnostics et le raisonnement du chatbot, alors pourquoi les utilisateurs du chatbot n’ont-ils pas obtenu de meilleurs résultats ?
Il s’avère que les médecins n’ont souvent pas été convaincus par le chatbot lorsqu’il indiquait quelque chose qui n’allait pas dans le sens de leur diagnostic. Au contraire, ils avaient tendance à s’accrocher à leur propre idée du bon diagnostic. « Ils n’écoutaient pas l’I.A. lorsque celle-ci leur disait des choses avec lesquelles ils n’étaient pas d’accord », a déclaré le Dr Rodman.
C’est logique, a déclaré Laura Zwaan, qui étudie le raisonnement clinique et les erreurs de diagnostic à l’Erasmus Medical Center de Rotterdam et qui n’a pas participé à l’étude. « Les gens sont généralement trop sûrs d’eux lorsqu’ils pensent qu’ils ont raison », a-t-elle déclaré.
Mais il y avait un autre problème : De nombreux médecins ne savaient pas comment utiliser un chatbot de manière optimale.
Le Dr Chen a déclaré avoir remarqué que lorsqu’il jetait un coup d’œil dans les journaux de discussion des médecins, « ils l’utilisaient comme un moteur de recherche pour des questions dirigées » : La cirrhose est-elle un facteur de risque de cancer ? Quels sont les diagnostics possibles pour une douleur oculaire ? « Seule une fraction des médecins a réalisé qu’ils pouvaient littéralement copier-coller l’historique complet du cas dans le chatbot et lui demander de donner une réponse complète à l’ensemble de la question », a ajouté le Dr Chen. « Seule une fraction des médecins a effectivement vu les réponses étonnamment intelligentes et complètes que le chatbot était capable de produire.
Gina Kolata s’intéresse aux maladies et aux traitements, à la manière dont les traitements sont découverts et testés, et à leur impact sur les personnes. En savoir plus sur Gina Kolata
Traduit par DeepL (+PJ)
Illustration par DALL·E
Laisser un commentaire