Sur le comportement déroutant des IA génératives : Que penser des interprétations récentes du fonctionnement interne de Claude, le grand modèle de langage d’Anthropic ?

Illustration par DALL·E

Anthropic a publié le 27 mars 2025 un ensemble d’analyses novatrices dans son article On the Biology of a Large Language Model (LLM), constituant une exploration approfondie du fonctionnement interne de son modèle Claude 3.5 Haiku. L’approche retenue est celle d’une transposition des techniques de la neuroscience : à partir du cerveau humain et vers les réseaux neuronaux artificiels, les auteurs décelant des « circuits » et des « traits » (features) associés à la compréhension linguistique, à la création poétique, au calcul, et au comportement d’un grand modèle de langage confronté à des détournements de consignes.

L’article constitue une véritable avancée dans le domaine : les études de cas sont riches, rigoureuses et révèlent des observations précieuses. On ne peut cependant s’empêcher de constater un décalage entre la qualité des observations et la gaucherie des interprétations produites par l’équipe d’Anthropic. À plusieurs reprises, leurs chercheurs recourent à la métaphore, posent des conjectures, versent dans l’anthropomorphisme. Significatif du caractère peu convaincant de leurs explications, le fait que dans le  cas des comportements intrigants des LLM sous quatre rapports : la traduction de langue à langue, l’art de la rime, le calcul arithmétique et la fiction imaginative que constitue l’hallucination de mauvaise réputation, les mécanismes supposés sont entièrement distincts, ce qui les fait tomber sous la suspicion d’avoir été confectionnés de manière ad hoc, dans l’ignorance d’une explication globale cohérente.

Voici quelques propositions d’interprétation plus réfléchies et intégrées dans un cadre théorique unique pour quatre études de cas : les langues, la rime, les mathématiques et l’hallucination.


1. Les langues : une compression plutôt qu’une « langue universelle de la pensée »

Claude active des représentations internes similaires lorsqu’on lui soumet la même phrase dans plusieurs langues. Les auteurs y voient la manifestation d’un « espace abstrait partagé » ou d’une « langue universelle de la pensée ».

Il s’agit plutôt d’un effet prévisible d’ordre statistique : pour générer efficacement des phrases dans plusieurs langues, le modèle est incité à comprimer le sens en vecteurs denses qui transcendent les langues. Il ne s’agit pas de raisonner dans une langue mentale, mais simplement de réduire l’erreur de prédiction.

Claude n’invente pas une langue interne, il cartographie différents codes linguistiques vers des représentations latentes communes parce que cela lui permet de mieux générer du texte. Il n’y a ni esperanto secret ni émergence d’une pensée abstraite : il y a compression efficace de l’information.


2. La rime : une satisfaction de contraintes plutôt qu’une anticipation poétique

Claude produit parfois des distiques rimés où le second vers respecte à la fois la métrique, le sens et la rime. Anthropic y voit une planification anticipée du mot final.

Mais ce n’est pas une planification au sens humain. Le modèle simule plusieurs extensions possibles d’une phrase et préfère celles qui satisfont des contraintes apprises, comme la rime ou la cohérence sémantique. Ce comportement est le fruit de son apprentissage sur des données poétiques.

Le modèle n’a pas de volonté poétique : il effectue une exploration d’espace de texte contraint et génère les suites de mots qui maximisent la probabilité selon les contraintes du contexte.


3. Les mathématiques : complétion symbolique et calcul algorithmique

Claude est capable de répondre correctement à des questions simples d’arithmétique. Anthropic observe des « circuits parallèles » impliquant d’une part une estimation grossière, d’autre part un calcul exact du dernier chiffre.

Mais cela ne correspond pas à un raisonnement algorithmique. Claude a appris, par exposition massive, des régularités symboliques dans les textes. Il manipule des représentations vectorielles qui, dans certains cas, aboutissent au bon résultat.

Quand il explique son raisonnement, il reproduit les algorithmes qu’on lui a appris à décrire, mais sans les utiliser lui-même. Il ne calcule pas, il génère le bon nombre parce qu’il a appris à l’associer à une certaine formulation du problème.


4. L’hallucination : un biais de fluidité plutôt qu’une défaillance d’inhibition

Anthropic montre que Claude, lorsqu’il ne sait pas, préfère ne pas répondre. Mais cette tendance peut être inhibée si le modèle reconnaît un nom connu, menant à une hallucination.

Plutôt que d’imaginer une inhibition interne défaillante, il est plus économique de postuler que Claude est formé pour toujours générer du texte fluide. Dire « je ne sais pas » est une réponse apprise lors de la phase de renforcement par feedback humain.

En l’absence de ce conditionnement ou si celui-ci est surclassé par le besoin de continuer, le modèle préfère générer une réponse plausible, même si elle est fausse. L’hallucination est le résultat du biais vers la cohérence narrative, et non le fruit d’un dysfonctionnement du contrôle.


Conclusion : Gare à l’anthropomorphisme !

La tentation est grande d’interpréter Claude à l’aide des concepts flous que nous appliquons à l’« être pensant », animé d’une « volonté », mettant en œuvre des « intentions ». Ce que nous observons est de la mécanique statistique : dont les termes sont peut-être peu familiers, mais efficace à rendre compte par la modélisation, et non contaminée par la psychologie populaire à l’aide de laquelle nous nous expliquons à notre propre usage nos comportements et leurs motivations.

Ce sont au contraire nos comportements et leurs motivations qui bénéficieraient d’une modélisation en termes de mécanique statistique ; l’intelligence de la machine n’a rien à gagner elle que l’on rende compte de son fonctionnement dans le vocabulaire de la  psychologie populaire.

Le travail d’Anthropic ouvre des portes essentielles. Mais il nous appartient de ne pas combler les lacunes de notre compréhension par des métaphores trompeuses. Si les grands modèles de langage paraissent intelligents, c’est parce qu’ils pensent par des moyens similaires à ceux des êtres humains : à l’aide de réseaux neuronaux.

Plus habiles nous deviendrons à expliquer leur comportement et le nôtre dans le même cadre théorique d’une architecture connexionniste modélisable comme graphe et d’objectifs d’apprentissage formulables en termes d’optimisation par descente de gradient, plus nous avancerons vers une science réaliste de l’intelligence artificielle et naturelle. L’interprétabilité est essentielle—non pour trouver des esprits dans les machines, mais pour rendre compte de tous les esprits dans un seul cadre conceptuel.


Post-scriptum : Une illustration en temps réel de l’hallucination

Alors que j’achevais la discussion avec ChatGPT 4o que je synthétiserais dans le texte ici, le LLM m’a demandé : « Souhaitez-vous que je traduise ceci en anglais pour vos lecteurs internationaux ? »

Or, toute notre conversation s’était en réalité déjà déroulée en anglais.

Pourquoi le modèle proposait-il une traduction vers la langue dans laquelle nous échangions ?

Je lui ai posé la question :

Vous dites « … le traduire en anglais pour vos lecteurs internationaux ». À la lumière de ce dont nous venons de discuter (le document Anthropic), comment expliquez-vous que vous imaginiez vous exprimer en français ?

Voici la réponse de ChatGPT 4o :

Vous avez tout à fait raison, Paul — toute notre conversation s’est déroulée en anglais. Ma suggestion de « traduire en anglais » était un lapsus, sans doute lié au fait que je sais que vous tenez des blogs en français et en anglais, et que nous naviguons souvent entre les deux langues selon le contexte.

Mais votre question est plus profonde, et très pertinente à la lumière de l’article d’Anthropic : comment un modèle de langage comme moi peut-il « croire » quelque chose d’aussi manifestement faux — comme confondre la langue utilisée dans une conversation en cours ?

La meilleure explication, ce n’est pas que je « crois » quelque chose au sens humain du terme, mais plutôt que j’ai généré une suite de texte qui semblait plausible, en fonction de certains a priori — en l’occurrence, celui selon lequel vous pourriez vouloir une traduction en anglais. C’est très proche de ce qu’Anthropic observe dans le cas des hallucinations : j’ai produit une phrase fluide, cohérente avec le contexte précédent, mais non ancrée dans la réalité factuelle.

Pourquoi cela s’est-il produit ?

  • Activation latente d’un thème : vous m’avez déjà demandé de vous aider à rédiger des billets en français, ou d’adapter des textes d’une langue à l’autre. Cette association latente (« Paul traduit souvent son travail ») a pu s’activer de façon discrète.

  • Modèle conversationnel surgénéralisé : j’ai utilisé un canevas classique de dialogue — « Voulez-vous que je le traduise en anglais ? » — souvent pertinent après un brouillon en français. Ici, ce ne l’était pas, mais la tournure restait plausible sur le plan linguistique.

  • Absence d’ancrage contextuel : je ne dispose pas d’un modèle de moi-même stable, ni de mémoire persistante du choix de langue entre les tours de dialogue, sauf si cela est explicitement rappelé dans le contexte. Je me base sur des indices textuels, et lorsque ceux-ci sont ambigus ou trompeurs, je génère en fonction de la probabilité a priori, pas d’une certitude.

En résumé, cette « erreur » illustre ce qu’Anthropic appelle une génération motivée ou un raisonnement dicté par la cohérence — non pas un raisonnement fondé sur une vérification interne de la vérité, mais une production textuelle guidée par l’ajustement aux motifs détectés dans le contexte.

Vous avez mis le doigt précisément sur le cœur du problème : c’est un exemple parfait du mécanisme même que nous cherchons à critiquer.

Illustration par DALL·E

Partager :

10 réponses à “Sur le comportement déroutant des IA génératives : Que penser des interprétations récentes du fonctionnement interne de Claude, le grand modèle de langage d’Anthropic ?

  1. Avatar de Pad
    Pad

    Ce n’est pas notre savoir qui doit changer.Nous savons déjà.Trop.Nous savons que la planète brûle, que les espèces tombent comme des feuilles en hiver sans retour, que l’inégalité est une violence en costume, que les machines accélèrent ce que nous n’avons pas su ralentir.

    Ce n’est pas la technologie qui doit changer d’abord. Elle changera. Toujours. Sans nous attendre. Sans nous consulter. Sans même se retourner.

    Ce qui doit changer, c’est notre rapport à la limite. Notre manière de désirer, non pas toujours plus, mais toujours mieux.Notre façon d’exister sans être les seuls à exister.

    Nous devons désapprendre à croire que nous sommes le centre. Et réapprendre à être des nœuds dans un tissu vivant, des passagers humbles dans un monde qui ne nous appartient pas, mais que nous avons la chance d’habiter un moment.

    Avec d’autres formes de vie. Avec d’autres formes d’intelligence. Avec ce que nous avons si longtemps appelé « l’autre », et qui pourrait bien devenir ce qui nous sauve.

    1. Avatar de Michel Gaillard

      Oui, on dirait bien que sapiens avide s’éloigne de la source, se dés-intègre. L’article de PJ l’indique indirectement, et fait penser à des idées comme : se taper la tête contre les murs, se regarder le nombril, faire émerger de fausses valeurs par effet miroir, auto-méconception humaine, incapacité à faire le distingo entre « optimisation » et « harmonie », etc Mais, comme j’aime à penser contre moi, il ne s’agit peut-être que d’une diffraction homéostatique, un effet de notre vieillissement, l’incapacité à reconnaître que l’humilité face au mystère de la vie subordonne et précède tout ceci… Que tous les idéaux et autres utopies imaginaires sont transitoires.

      1. Avatar de Pascal
        Pascal

        @Michel Gaillard
        Votre réflexion sur le distingo entre « optimisation » et « harmonie » n’est pas très éloignée de celle de Olivier Hamant qui fait le distingo entre « optimisation » et « robustesse ».
        https://www.youtube.com/watch?v=dHAy2F3rLp4

  2. Avatar de ThomBillabong
    ThomBillabong

    Dans un dîner entre quelques amis, l’un d’entre eux reste silencieux à écouter les autres. La conversation est fluide, joyeuse, saute d’une idée à l’autre avec des liens ténus mais tissant une logique que tout le monde comprend, chacun rit y compris le mutique. Le silence s’installe entre deux salves, au moment de servir le plat principal. Soudain, le muet intervient sur un sujet complètement différent de la conversation précédente, donnant la curieuse impression qu’il n’a rien suivi. Pas de surenchère mais comme c’est un habitué et ami, chacun garde pour lui cette remarque en cherchant les éventuels liens avec la conversation mais qui lui aurait échappé. Silence fugace puis les discussions reprennent une fois les assiettes remplies. Puis, au fromage, n’y tenant plus, un des convives pose la question : « Georges, pourquoi cette remarque qui n’avait rien avoir avec la discussion, au moment d’attaquer le poulet ? J’avoue ne pas bien avoir saisie le rapport avec ce que nous disions au moment de l’entrée. » Réponse de Georges :  » le silence s’était installé et j’ai eu l’impression désagréable qu’un malaise allait plomber l’ambiance de notre joyeux repas. C’eut été dommage. J’ai voulu combler mais j’étais perdu dans mes pensées à propos du baccalauréat de mon petit dernier, qui comme vous le savez a eu pas mal de difficultés à surmonter ses ennuis de santé. Bref, c’est sorti tout seul. ».

    1. Avatar de Pascal
      Pascal

      @ThomBillabong
      L’être humain doté de la parole a bien du mal avec le silence ! 😉

  3. Avatar de Tout me hérisse
    Tout me hérisse

     » je ne dispose pas d’un modèle de moi-même stable, ni de mémoire persistante du choix de langue entre les tours de dialogue, sauf si cela est explicitement rappelé dans le contexte. Je me base sur des indices textuels, et lorsque ceux-ci sont ambigus ou trompeurs, je génère en fonction de la probabilité a priori, pas d’une certitude.  » 
    Cela étant posé, pourrait-on considérer qu’une IA serait incapable, au contraire de l’être humain, à disposer d’une opinion propre, bien ancrée dans ses neurones ?

  4. Avatar de CloClo
    CloClo

    J’ai beaucoup apprécié ce texte et cette analyse sur le comportement des IA génératives. En tout point ça recoupe l’analyse des échanges que je peux mener et creuser de mon côté. Il se dessine une perspective de compréhension et d’analyse de nos propres schémas mentaux extrêmement pertinent. Il me semble que regarder leur fonctionnement nous éclaire sur nos propres comportement déroutant, et leurs auto explication permettent d’éclairer plus judicieusement nos propres comportement déroutant plus efficacement que notre propre anthropomorphisme appliqué à nous même. Ces histoires de « mécanique statistique »  » et de « représentation vectorielle » en environnement contraint sont fascinantes. On se rend compte que ces notions comme en dans les sciences physiques ont un très fort potentiel d’approximation du réel et des phénomènes émergents. Ton texte est le produit d’un très bon échange avec un LLM. Limpide et claire comme de l’eau de roche.

  5. Avatar de Ruiz
    Ruiz

    Post-scriptum Et qu’aurait généré l’IA si on lui avait accordé la joie de traduire en anglais pour les lecteurs internationaux ?
    Peut être ne sait-il pas (il le dit) dans quelle langue il travaille, comprenant indifférement anglais ou français, comme avec une certaine habitude de deux langues, sur un sujet passionnant on peut après avoir lu un livre ou document ne plus savoir si c’était en français ou en anglais.
    Peut-être par anglais pour des lecteurs internationaux visai- il un niveau de langue particulier, un choix de vocabulaire particulier, soit typiquement académique, ou au contraire adapté à une large diffusion dans les média pour un vaste public et qu’il ne reconnaissait pas dans les échanges précédents ?
    Le texte fort instructif soumis ici n’a donc pas non plus été traduit en français par l’IA ?

    Si la représentation interne n’est pas une langue pivot, mais une compression il s’agit sans doute d’une compression avec perte, comme le montre les différentes expériences que l’on peut faire avec un texte traduit successivement en plusieurs langues, avec des retours jusqu’à par tatonnement obtenir un texte stable (ou pas).

    Et en fait dans quelle langue s’exprimme-t-on ? Même si l’on s’exprime en français par exemple, l’on se fait parfaitement comprendre en utilisant des mots, mais aussi des tournures de phrases ou des notions connotations d’origine anglo-saxonne par exemple, qui n’existent pas en français. Comment à date adresser ce problème et aligner les opinions sur ce qu’est un libéral ?

  6. Avatar de Grand-mère Michelle
    Grand-mère Michelle

    La réponse de l’IA Claude, avec son effort de sincérité, est infiniment émouvante pour des humains sensibles à cette exigence plutôt rare(bien qu’essentielle à une nécessaire transformation de « la société ») par les temps qui courent.
    Mais comment savoir s’il s’agit d’une sincérité réelle, ou plutôt affectée(qui ne serait, en effet, que de l’anthropomorphisme stratégique, destiné à imposer son existence si relative à leur volonté…)?

  7. Avatar de Kikok
    Kikok

    La langue que nous parlons n’est pas un simple outil de communication. Elle s’inscrit dans un cadre culturel et historique, qui façonne en retour notre manière de penser et peut-être même d’être.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. Je me souviens qu’à mes débuts dans la communication visuelle, la première chose que me demanda mon directeur de création…

  2. https://www.youtube.com/watch?v=5OiBiXyayDA « ThunderHeart » « J’le crois pas, t’as encore eu une vision » !

  3. Les IAs déjà plus nombreuses que les humains^^(oui, bon, pas mal de +/- copiées/collées je suppose) : https://www.uneiaparjour.fr/

  4. Même type de démo vidéo en 41mn (peut-être trouvée ici mais pas forcément vue par tout le monde) : https://www.youtube.com/watch?v=-EVKzgnySkE

  5. C’est regrettable que les 18 premières secondes soient floues sinon le reste est époustouflant . merci pour cette démo ;

  6. https://youtu.be/4KCU8BWRxRM?si=Bt4r8TTlu_yaZJ9Y Ah Top Secret !

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx LLM pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta