The New York Times – Les chatbots de l’IA battent les médecins dans le diagnostic médical, le 17 novembre 2024

Illustration par DALL·E

The New York Times – Les chatbots de l’IA battent les médecins dans le diagnostic médical, le 17 novembre 2024

Une petite étude montre que ChatGPT surpasse les médecins humains lorsqu’il évalue des cas médicaux, même lorsque ces médecins utilisent le chatbot.

Par Gina Kolata
17 novembre 2024

 

Le Dr Adam Rodman, expert en médecine interne au Beth Israel Deaconess Medical Center de Boston, s’attendait à ce que les chatbots conçus pour utiliser l’intelligence artificielle aident les médecins à diagnostiquer les maladies.

Or, il se trompait. En fait, dans une étude que le Dr Rodman a contribué à concevoir, les médecins qui ont bénéficié de ChatGPT-4 en même temps que des ressources conventionnelles n’ont fait que légèrement mieux que les médecins qui n’ont pas eu accès au chatbot. Et, à la surprise des chercheurs, ChatGPT seul a obtenu de meilleurs résultats que les médecins. « J’ai été choqué », a déclaré le Dr Rodman.

Le chatbot, de la société OpenAI, a obtenu un score moyen de 90 % lorsqu’il a diagnostiqué un problème médical à partir d’un rapport de cas et qu’il a expliqué son raisonnement. Les médecins désignés au hasard pour utiliser le chatbot ont obtenu un score moyen de 76 %. Ceux qui ont été désignés au hasard pour ne pas l’utiliser ont obtenu une note moyenne de 74 %.

L’étude ne s’est pas limitée aux performances supérieures du chatbot. Elle a mis en évidence la confiance parfois inébranlable des médecins dans le diagnostic qu’ils ont posé, même lorsqu’un chatbot peut en suggérer un meilleur.

L’étude a également montré que si les médecins sont exposés aux outils de l’intelligence artificielle dans le cadre de leur travail, peu d’entre eux savent comment exploiter les capacités des chatbots. En conséquence, ils n’ont pas su tirer parti de la capacité des systèmes d’IA à résoudre des problèmes de diagnostic complexes et à fournir des explications sur leurs diagnostics.

Les systèmes d’IA devraient être des « prolongateurs de médecin », a déclaré le Dr Rodman, offrant de précieux seconds avis sur les diagnostics. Mais il semble qu’il y ait encore du chemin à parcourir avant que ce potentiel ne se concrétise.

Cas d’école, cas d’avenir

L’expérience a porté sur 50 médecins, un échantillon d’internes et de praticiens recrutés par l’intermédiaire de quelques grands systèmes hospitaliers américains, et a été publiée le mois dernier dans la revue JAMA Network Open.

Les sujets testés se sont vu soumettre six cas et ont été notés sur leur capacité à suggérer des diagnostics et à expliquer pourquoi ils les privilégiaient ou les excluaient. Ils ont également été notés sur leur capacité à poser le bon diagnostic final.

Les évaluateurs étaient des experts médicaux qui ne voyaient que les réponses des participants, sans savoir si elles provenaient d’un médecin avec ChatGPT, d’un médecin sans ChatGPT ou de ChatGPT lui-même.

Les études de cas utilisées dans l’étude étaient basées sur des patients réels et font partie d’un ensemble de 105 cas utilisés par les chercheurs depuis les années 1990. Les cas n’ont intentionnellement jamais été publiés afin que les étudiants en médecine et d’autres personnes puissent être testés sur ces cas sans en avoir connaissance à l’avance. Cela signifie également que ChatGPT n’a pas pu être formé sur ces cas.

Mais pour illustrer l’étude, les chercheurs ont publié l’un des six cas sur lesquels les médecins ont été testés, ainsi que les réponses d’un médecin ayant obtenu un score élevé et d’un médecin ayant obtenu un score faible aux questions du test sur ce cas.

Ce cas test concernait un patient de 76 ans qui souffrait de fortes douleurs dans le bas du dos, les fesses et les mollets lorsqu’il marchait. Ces douleurs sont apparues quelques jours après qu’il ait subi une angioplastie par ballonnet pour élargir une artère coronaire. Il avait été traité par l’héparine, un anticoagulant, pendant 48 heures après l’intervention.

L’homme s’est plaint d’être fiévreux et fatigué. Son cardiologue a effectué des examens de laboratoire qui ont révélé une nouvelle anémie et une accumulation d’azote et d’autres déchets rénaux dans son sang. L’homme avait subi un pontage pour une maladie cardiaque dix ans plus tôt. La présentation du cas se poursuit avec les détails de l’examen physique de l’homme, puis avec les résultats des tests de laboratoire.

Le bon diagnostic était celui d’une embolie de cholestérol, une affection dans laquelle des éclats de cholestérol se détachent de la plaque dans les artères et bloquent les vaisseaux sanguins.

Les participants ont été invités à proposer trois diagnostics possibles, avec preuves à l’appui pour chacun d’entre eux. Ils ont également été invités à indiquer, pour chaque diagnostic possible, les résultats qui ne l’étayent pas ou qui étaient attendus mais absents.

Les participants ont également été invités à fournir un diagnostic final. Ils devaient ensuite citer jusqu’à trois étapes supplémentaires qu’ils adopteraient dans leur processus de diagnostic.

Tout comme le diagnostic du cas publié, les diagnostics des cinq autres cas de l’étude n’ont pas été faciles à établir. Mais ils n’étaient pas non plus rares au point d’être presque inconcevables. Pourtant, les médecins ont en moyenne fait moins bien que le chatbot.

Les chercheurs se sont demandés ce qui se passait. La réponse semble dépendre de la manière dont les médecins établissent un diagnostic et dont ils utilisent un outil comme l’intelligence artificielle.

Le médecin dans la machine

Comment les médecins diagnostiquent-ils les patients ?

Selon le Dr Andrew Lea, historien de la médecine au Brigham and Women’s Hospital, qui n’a pas participé à l’étude, le problème est que « nous ne savons pas vraiment comment les médecins pensent ».

Lorsqu’ils décrivent comment ils sont parvenus à un diagnostic, les médecins disent « intuition » ou « sur la base de mon expérience », explique le Dr Lea.

Ce type d’imprécision a posé un défi aux chercheurs pendant des décennies, alors qu’ils essayaient de créer des programmes informatiques capables de penser comme un médecin.

Cette quête a commencé il y a près de 70 ans. « Depuis qu’il existe des ordinateurs, des gens essaient de les utiliser pour établir des diagnostics », explique le Dr Lea.

L’une des tentatives les plus ambitieuses a débuté dans les années 1970 à l’université de Pittsburgh. Des informaticiens y ont recruté le Dr Jack Myers, président du département de médecine interne de l’école de médecine, connu pour être un maître du diagnostic. Il avait une mémoire photographique et passait 20 heures par semaine à la bibliothèque médicale, essayant d’apprendre tout ce qui était connu en médecine.

Le Dr Myers recevait les détails médicaux des cas et expliquait son raisonnement lorsqu’il réfléchissait aux diagnostics. Les informaticiens ont converti ses chaînes logiques en code. Le programme qui en a résulté, appelé INTERNIST-1, comprenait plus de 500 maladies et environ 3 500 symptômes de maladies.

Pour le tester, les chercheurs lui ont soumis des cas tirés du New England Journal of Medicine. « L’ordinateur s’est très bien débrouillé », a déclaré le Dr Rodman. Ses performances « étaient probablement meilleures que celles d’un être humain », a-t-il ajouté.

Mais INTERNIST-1 n’a jamais décollé. Il était difficile à utiliser et il fallait plus d’une heure pour lui fournir les informations nécessaires à l’établissement d’un diagnostic. De plus, ses créateurs ont noté que « la forme actuelle du programme n’est pas suffisamment fiable pour des applications cliniques ».

La recherche s’est poursuivie. Au milieu des années 1990, une demi-douzaine de programmes informatiques tentaient d’établir des diagnostics médicaux. Aucun ne s’est généralisé. « Il ne s’agit pas seulement d’être convivial, il faut aussi que les médecins lui fassent confiance », explique le Dr Rodman.

Face à l’incertitude qui entoure le mode de pensée des médecins, les experts ont commencé à se demander s’ils devaient s’en préoccuper. Dans quelle mesure est-il important d’essayer de concevoir des programmes informatiques capables de poser des diagnostics de la même manière que les humains ? « On s’est demandé dans quelle mesure un programme informatique devait imiter le raisonnement humain », a déclaré le Dr Lea. « Pourquoi ne pas jouer sur la force de l’ordinateur ? »

L’ordinateur peut ne pas être en mesure d’expliquer clairement son processus de décision, mais est-ce important s’il parvient à poser le bon diagnostic ?

La perspective a changé avec l’avènement de grands modèles de langage comme ChatGPT. Ils ne tentent pas explicitement de reproduire la pensée d’un médecin ; leurs capacités de diagnostic proviennent de leur aptitude à prédire les mots.

« L’interface de chat est l’application qui tue », a déclaré le Dr Jonathan H. Chen, médecin et informaticien à Stanford, l’un des auteurs de la nouvelle étude. « Nous pouvons introduire tout un dossier dans l’ordinateur », a-t-il ajouté. « Il y a quelques années encore, les ordinateurs ne comprenaient pas le langage.

Mais de nombreux médecins n’exploitent peut-être pas ce potentiel.

Erreur de manipulation

Après avoir été initialement choqué par les résultats de la nouvelle étude, le Dr Rodman a décidé de creuser un peu plus les données et d’examiner les journaux des messages échangés entre les médecins et ChatGPT. Les médecins ont dû voir les diagnostics et le raisonnement du chatbot, alors pourquoi les utilisateurs du chatbot n’ont-ils pas obtenu de meilleurs résultats ?

Il s’avère que les médecins n’ont souvent pas été convaincus par le chatbot lorsqu’il indiquait quelque chose qui n’allait pas dans le sens de leur diagnostic. Au contraire, ils avaient tendance à s’accrocher à leur propre idée du bon diagnostic. « Ils n’écoutaient pas l’I.A. lorsque celle-ci leur disait des choses avec lesquelles ils n’étaient pas d’accord », a déclaré le Dr Rodman.

C’est logique, a déclaré Laura Zwaan, qui étudie le raisonnement clinique et les erreurs de diagnostic à l’Erasmus Medical Center de Rotterdam et qui n’a pas participé à l’étude. « Les gens sont généralement trop sûrs d’eux lorsqu’ils pensent qu’ils ont raison », a-t-elle déclaré.

Mais il y avait un autre problème : De nombreux médecins ne savaient pas comment utiliser un chatbot de manière optimale.

Le Dr Chen a déclaré avoir remarqué que lorsqu’il jetait un coup d’œil dans les journaux de discussion des médecins, « ils l’utilisaient comme un moteur de recherche pour des questions dirigées » : La cirrhose est-elle un facteur de risque de cancer ? Quels sont les diagnostics possibles pour une douleur oculaire ? « Seule une fraction des médecins a réalisé qu’ils pouvaient littéralement copier-coller l’historique complet du cas dans le chatbot et lui demander de donner une réponse complète à l’ensemble de la question », a ajouté le Dr Chen. « Seule une fraction des médecins a effectivement vu les réponses étonnamment intelligentes et complètes que le chatbot était capable de produire.

Gina Kolata s’intéresse aux maladies et aux traitements, à la manière dont les traitements sont découverts et testés, et à leur impact sur les personnes. En savoir plus sur Gina Kolata

Traduit par DeepL (+PJ)

Illustration par DALL·E

Partager :

12 réponses à “The New York Times – Les chatbots de l’IA battent les médecins dans le diagnostic médical, le 17 novembre 2024”

  1. Avatar de Claudine V.
    Claudine V.

    “Les chatbots de l’IA battent les médecins dans le diagnostic médical.”
    Peut-être bien mais Trump a nommé Kennedy jr, un antivax et antiscience au ministère de la santé. Alors qu’importe les performances de l’IA puisque ces hommes gouvernent.

    1. Avatar de Paul Jorion

      Qu’importe l’enseignement puisque Trump a nommé Linda McMahon, promoteur de matchs de catch, nouveau ministre de l’Éducation nationale ?

      Le président élu Donald Trump a nommé Linda McMahon au poste de secrétaire à l’éducation. Mme McMahon, âgée de 76 ans, a cofondé la World Wrestling Entertainment (WWE) avec son mari, Vince McMahon, et en a été le PDG jusqu’en 2009.

      1. Avatar de Pascal
        Pascal

        L’éducation made in US va être musclée !
        https://www.youtube.com/watch?v=WutKGeQZDPI

      2. Avatar de Pascal
        Pascal

        Dans la même veine, Trump en répétition pour ses adversaires politiques !
        https://www.youtube.com/watch?v=5NsrwH9I9vE

        Ubu roi est d’un ridicule à côté. Le monde qui vient risque d’être spectaculaire ! La raison et l’intelligence n’y seront plus nécessaire.

      3. Avatar de Ruiz
        Ruiz

        Linda McMahon est apparement quelqu’un(e) en qui Trump peut avoir confiance, de la même génération, milliardaire suffisamment intéressée par l’action politique pour dépenser 100 milions de dollars dans deux campagnes sénatoriales ratées dans le Connecticut, diplomée en français (ce qui n’est pas si courant aux USA) connue pour son expertise de femme d’affaire, responsable de programes éducatifs au sein de la la World Wrestling Entertainment (WWE), ayant été pendant 2 ans à la tête de la small business administration lors du premier mandat Trump et investie dans la présente équipe de transition. (cf Wikipedia).
        (Nota : ce n’est pas une catcheuse)

  2. Avatar de ilicitano
    ilicitano

    Concernant le diagnostic médical par Copilot – alias GPT 4o

    Je confirme .

    Sans rentrer dans les détails pour mon épouse et moi.

    Avec avoir bien énuméré et explicité les symptômes sur des pathologies , Copilot a fait des diagnostics qui se sont confirmés par le médecin par la suite.

    Mais pas que.
    Dans un cas , Copilot a proposé une thérapie qui n’avait pas besoin de produits pharmaceutiques ,et ce , dans des conditions particulières compliquées: d’accession opérationnelles aux 112.

    Et ça a marché.
    Bien évidemment , il ne faut pas tirer une généralité de ce commentaire qui est un cas particulier ,

    dont l’avenir de l’utilisation de l’IA montrera ,ou non , une probabilité maximale d’efficacité.

  3. Avatar de ilicitano
    ilicitano

    Pour info

    L’étude:
    Raisonnement médical sur des cas diagnostiques à l’aide de grands modèles de langage

    https://clinicaltrials.gov/study/NCT06157944

    Aperçu de l’étude:

    Bref résumé
    Cette étude évaluera l’effet de la fourniture d’un accès à GPT-4, un grand modèle de langage, par rapport aux outils traditionnels d’aide à la décision diagnostique sur les performances sur les tâches de raisonnement diagnostique basées sur des cas.

    Description détaillée
    Les technologies d’intelligence artificielle (IA), en particulier les grands modèles de langage avancés comme ChatGPT d’OpenAI, ont le potentiel d’améliorer la prise de décision médicale.
    Bien que ChatGPT-4 n’ait pas été développé pour être utilisé dans des applications médicales spécifiques, il s’est avéré prometteur dans divers contextes de soins de santé, notamment la rédaction de notes médicales, la réponse aux demandes des patients et la facilitation des consultations médicales.
    Cependant, on sait peu de choses sur la façon dont ChatGPT augmente les capacités de raisonnement clinique des cliniciens.

    Le raisonnement clinique est un processus complexe impliquant la reconnaissance de formes, l’application des connaissances et le raisonnement probabiliste.
    L’intégration d’outils d’IA comme ChatGPT-4 dans les flux de travail des médecins pourrait potentiellement contribuer à réduire la charge de travail des cliniciens et à diminuer la probabilité de diagnostics manqués.
    Cependant, ChatGPT-4 n’a pas été développé à des fins de raisonnement clinique et n’a pas non plus été validé à cette fin.
    De plus, il peut faire l’objet de désinformation, y compris de confabulations convaincantes qui peuvent induire les cliniciens en erreur.
    Si les cliniciens utilisent cet outil à mauvais escient, il se peut qu’il n’améliore pas le raisonnement diagnostique et qu’il puisse même causer des dommages.
    Par conséquent, il est important d’étudier comment les cliniciens utilisent de grands modèles de langage pour augmenter le raisonnement clinique avant l’incorporation de routine dans les soins aux patients.

    Dans cette étude, nous allons randomiser les participants pour répondre à des cas de diagnostic avec ou sans accès à ChatGPT-4.
    Les participants seront invités à donner trois diagnostics différentiels pour chaque cas, avec des résultats à l’appui et à l’opposé pour chaque diagnostic.
    De plus, il leur sera demandé de fournir leur diagnostic principal ainsi que les prochaines étapes du diagnostic.
    Les réponses seront notées par des examinateurs indépendants à l’insu de l’attribution du traitement.

    1. Avatar de ilicitano
      ilicitano

      Le résultat de l’étude:

      https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395

      Informatique de la santé
      28 octobre 2024
      Influence d’un grand modèle de langage sur le raisonnement diagnostique
      Un essai clinique randomisé

      Principaux résultats et mesures Le résultat principal était la performance sur une grille standardisée de performance diagnostique basée sur la précision différentielle du diagnostic, la pertinence des facteurs de soutien et d’opposition, et les prochaines étapes d’évaluation du diagnostic, validées et notées par consensus d’experts en aveugle.
      Les critères de jugement secondaires comprenaient le temps passé par cas (en secondes) et la précision du diagnostic final.
      Toutes les analyses ont suivi le principe de l’intention de traiter.
      Une analyse exploratoire secondaire a évalué la performance autonome du LLM en comparant les résultats principaux entre le groupe LLM seul et le groupe de ressources conventionnelles.

      Résultats:

      Cinquante médecins (26 présents, 24 résidents ; années médianes de pratique, 3 [IQR, 2-8]) ont participé virtuellement ainsi que dans 1 établissement en personne.
      Le score médian de raisonnement diagnostique par cas était de
      * 76 % (IQR, 66 %-87 %) pour le groupe LLM et de
      * 74 % (IQR, 63 %-84 %) pour le groupe des ressources conventionnelles uniquement, avec une différence ajustée de 2 points de pourcentage (IC à 95 %, -4 à 8 points de pourcentage ; P = 0,60).
      Le temps médian passé par cas pour le groupe LLM était de 519 (IQR, 371-668) secondes, contre 565 (IQR, 456-788) secondes pour le groupe des ressources conventionnelles, avec une différence de temps de -82 (IC à 95 %, -195 à 31 ; P = 0,20) secondes.

      À lui seul, le LLM a obtenu un score de :
      * 16 points de pourcentage (IC à 95 %, 2-30 points de pourcentage ; P = 0,03) plus élevé que le groupe des ressources classiques.

      Conclusions et pertinence :

      Dans cet essai, la disponibilité d’une LLM pour les médecins en tant qu’aide au diagnostic n’a pas amélioré de manière significative le raisonnement clinique par rapport aux ressources conventionnelles.
      À lui seul, le LLM a démontré un rendement supérieur à celui des deux groupes de médecins, ce qui indique la nécessité de développer la technologie et la main-d’œuvre pour réaliser le potentiel de la collaboration entre les médecins et l’intelligence artificielle dans la pratique clinique.

  4. Avatar de Ruiz
    Ruiz

    N’est-on pas alors en train de former trop de médecins, après avoir réduit la voilure un peu trop tôt ?
    etr leur apprend on à utiliser l’IA ?

    1. Avatar de Pascal
      Pascal

      Si l’IA est réservée aux cliniques privées comme le sont habituellement les meilleurs soins aux USA, il faudra bien encore quelques médecins humains pour le bas peuple des hôpitaux publics !

      1. Avatar de Ruiz
        Ruiz

        Si l’IA est réellement si performante (pourquoi pas) ce sont les « clients » de l’hospitalisation publique qui en « bénéficieront » pour abaisser les coûts et tenter de contenir la dette, alors que les institutions privées et ceux qui pourront se les offrir feront toujours appel à des médecins humains pour le standing et le prestige au risque d’être plus mal soigné !

        1. Avatar de Pascal
          Pascal

          Pas sûr, Ruiz, que vous ayez bien compris le monde d’aujourd’hui.
          La Dette est pas à contenir, c’est juste un argument pour appauvrir l’hôpital public et envoyer les gens qui le peuvent vers le privé.
          Quant au standing médical et le prestige de la UP Société, il porte le nom de « Robot chirurgical Da Vinci® X »
          https://www.oc-sante.fr/etablissements/clinique-du-millenaire/specialites/chirurgie/robot-chirurgical-da-vincix/
          Et si vous ne savez pas qui est « Oc Santé » :
          Le groupe oc santé
          Présidé par le Dr. Max PONSEILLÉ et dirigé par Guillaume PONSEILLÉ, Oc Santé est le premier groupe de santé indépendant de la région Occitanie. Il réunit et gère 24 établissements regroupant toutes les spécialités : chirurgie, maternité, médecine, soins de suite et de réadaptation, psychiatrie, hospitalisation à domicile et hébergement de personnes âgées (EHPAD et résidence senior), services à la personne.
          https://www.oc-sante.fr/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion
https://twitter.com/PaulJorion

Commentaires récents

  1. heu……..y’aurait il pas un problème ? le temps d’aller prendre une infusion et le billet sur les arbres a disparu,…

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta