Grands Modèles de Langage : Pourquoi les réseaux neuronaux ont-ils réussi là où la linguistique échouait ?, par Claude Roux

08 mars 2024 16h48

Illustration par DALL·E (+PJ)

Je suis très heureux d’entendre enfin un son de cloche positif quant à l’IA quand le discours ambient vise soit à déformer soit même à nier les progrès faits dans le domaine.

Je suis chercheur en linguistique informatique depuis près de 30 ans. J’ai fait une maitrise d’informatique à l’Institut de Programmation de Paris VI dans les années 80 avant de faire une thèse en linguistique à l’Université de Montréal. J’ai fait la majorité de ma carrière autour des méthodes symboliques au sein de l’équipe ParSem à XRCE (le centre européen de recherche de Xerox à Grenoble). J’y ai développé à la suite de ma thèse un moteur d’analyse syntaxique : XIP qui dans les années 2000 permettait d’extraire des dépendances dans un texte à la vitesse de 3000 mots/s. En 2016 nous avons même gagné une compétition à SemEval pour l’extraction des sentiments dans un corpus de critiques de restaurant.

Puis en 2017 est sorti transformer (l’article « Attention is all you need ») et à partir de là tout s’est emballé…

Pour les esprits chagrins qui nient l’existence de ces progrès, je réponds la chose suivante: JE NE PENSAIS PAS VOIR DÉBARQUER UNE TELLE TECHNOLOGIE DE MON VIVANT.

Suis-je amer ? Certainement pas, j’ai la chance de vivre tout ce dont j’ai rêvé quand j’ai commencé à travailler dans le domaine. Traduction Automatique, Analyse de texte, Génération de texte et de code, Compréhension du texte, j’en passe et des meilleurs.

Alors pourquoi ont-ils réussi là où l’équipe dans laquelle j’ai travaillé pendant 20 ans a échoué ?

Il n’y a certainement pas de réponse simple, mais je vais tenter d’apporter ma pierre personnelle, qui vaut ce qu’elle vaut. Que les vrais spécialistes pardonnent à quelqu’un qui a erré sur les chemins du symbolique…

La linguistique traditionnelle (j’y inclus aussi les méthodes à noyaux) a divisé la langue en une multitude de champs différents : lexicologie, syntaxe, sémantique, analyse du discours sans jamais réussir à jeter des ponts entre ces domaines.

Nous faisions de la syntaxe en mêlant un peu de sémantique dans notre groupe, mais nous nous heurtions sans cesse à un plafond de verre, car le sens commun nous échappait. Nous n’arrivions pas à injecter suffisamment de connaissances du monde dans nos approches et le moindre antécédent qu’il soit anaphorique ou pire cataphorique faisait déraper nos modèles.

Malgré tous nos efforts, notre travail restait laborieux et maladroit… Nous arrivions à quelques résultats, certes, mais au prix d’un labeur de bénédictin.

Les Grands Modèles de Langue unifient l’ensemble de ces axes. Car lorsque un GML fonctionne, il dispose d’une représentation unifiée de la sémantique (les plongements ou embeddings) que l’utilisation de l’attention permet de mettre en regard les uns avec les autres.

On entend souvent des critiques affirmer avec une certaine morgue que ces modèles ne font que compléter le mot suivant. C’est idiot… Ce que ces modèles font c’est apprendre sur des contextes de plusieurs milliers de tokens à deviner un mot masqué. D’une certaine manière, ils sont entrainés à résoudre des milliards d’exercices à trous. Et ils apprennent dès lors, des milliards de motifs sémantiques extrêmement fins, je dis sémantique, parce que les plongements ne sont pas vraiment liés à une langue donnée, mais bel et bien à des concepts sémantiques. En ingérant toute la connaissance du monde, ils finissent par construire un filet qui lie entre elles toutes les expériences présentes et passées de notre humanité.

En cela, ils sont une parfaite distillation de nos civilisations.

Aujourd’hui, je crois qu’il faut absolument démultiplier nos efforts en recherche dans tous les domaines et dans toutes les langues, pour fournir toujours plus de données à ces modèles, parce que nombre de nos problèmes actuels, dans le monde de l’énergie ou de la médecine, trouveront peut-être leur solution dans le croisement de données scientifiques disparates que nos cerveaux humains limités sont incapables d’établir. Il existe peut-être un texte en sanscrit qui décrit une méthode pour soigner certaines maladies avec certaines plantes. Aujourd’hui, il devient possible pour n’importe qui d’y avoir accès.

Il s’est publié près de 3 millions d’articles scientifiques l’an dernier, seule la machine peut les digérer tous.

Illustration par DALL·E (+PJ)

Grands Modèles de Langage, Intelligence Artificielle, Linguistique

« Attention is All You Need », Approches symboliques, Grands Modèles de Langage, linguistique, LLM, Transformer

17 réponses à “Grands Modèles de Langage : Pourquoi les réseaux neuronaux ont-ils réussi là où la linguistique échouait ?, par Claude Roux”

CloClo

08 mars 2024 19h53

Que ne puis je applaudir physiquement à ce texte… Il faut donner à manger des croquettes au minou comme le dit Garorock, toutes nos croquettes et même plus.

Répondre
Pad

08 mars 2024 21h37

Merci infiniment pour cette réflexion profonde et éclairante sur l’évolution des Grands Modèles de Langue. Votre partage d’expérience enrichit notre compréhension de ces technologies révolutionnaires.

Répondre
Garorock

08 mars 2024 22h29

Token est un mot anglais signifiant jeton.

En informatique, cet anglicisme est utilisé :
pour désigner un identificateur de session pour identifier une session lors d’une communication réseau ;
pour désigner une entité (ou unité) lexicale, dans le cadre de l’analyse lexicale ;
pour désigner un jeton d’authentification, boîtier électronique générant des nombres synchronisés destiné à l’authentification ou stockant des informations chiffrées ;
pour désigner un jeton échangeable qui s’appuie sur une blockchain existante, généralement Ethereum (étant programmable) ;
dans l’expression « Token ring » pour désigner un anneau à jeton, qui est une topologie de réseau informatique en anneau.

Répondre
Khanard

08 mars 2024 23h05

glané à l’instant sur le ouèbe

https://inflection.ai/inflection-2-5

Répondre
timiota

09 mars 2024 0h34

« lorsque un GML fonctionne, il dispose d’une représentation unifiée de la sémantique (les plongements ou embeddings) que l’utilisation de l’attention permet de mettre en regard les uns avec les autres. »

C’est pour ça que Laurent Lafforgues, un des matheux qui comprend à peu près le Grothendieck dans le texte, a expliqué (à des jeunes polytechniciens) que les concepts très (très très très) généraux de Grothendieck que sont les « topos » (et les foncteurs) étaient les bons concepts pour modéliser le fonctionnement des IA ?

Une « super abstraction » (ce n’est pas évident qu’un truc aussi puissant et général serait né aujourd’hui sans l’apport de Grothendieck), qui ne se soucie que de conserver un miminum de relations/règles topologiques entre les objets de départ (les données qui ont nourri le machin) et ceux d’arrivée (ceux que « mouline » le GML).

Répondre
timiota

09 mars 2024 0h39

Quel degré de contrôle des usages ?

Que dire à ces gens (lien ci-dessous) qui n’ont pas encore été touché par le message à connotation positive ?
https://www.theguardian.com/technology/2024/mar/07/ai-climate-change-energy-disinformation-report

Répondre
1. CloClo
  
  09 mars 2024 10h53
  
  Et oui, le feu ça brûle, la roue ça tourne, l’électricité ça électrocute.
  
  Répondre
  1. Timiota
    
    09 mars 2024 21h13
    
    Vitemonextincteur
    
    Répondre
2. CORLAY
  
  09 mars 2024 10h59
  
  Bonjour Timiota, je viens de lire v/site : AI climate change energy desinformation report. Je pense qu’il devrait être traduit pour les conclusions qu’il donne. D’autre part, l’article Astronomers detect waterworld with a boiling ocean in deep space (très intéressant). Bonne journée. Isabelle
  
  Répondre
3. Pad
  
  09 mars 2024 11h29
  
  L’article que vous avez fourni explore la relation complexe entre l’intelligence artificielle (IA) et la crise climatique, mettant en évidence à la fois les avantages potentiels et les préoccupations significatives associées au rôle de l’IA dans les questions environnementales. Il discute de la vision optimiste selon laquelle l’IA peut contribuer à résoudre les défis liés au climat grâce à des innovations telles que le suivi de la déforestation, l’identification des fuites de pollution et la prédiction des événements météorologiques extrêmes. Google, en particulier, a été un promoteur de ce point de vue, suggérant que l’IA pourrait conduire à des réductions significatives des émissions.
  
  Cependant, l’article présente également une perspective critique d’une coalition de groupes environnementaux, qui remet en question le récit excessivement positif entourant l’impact de l’IA sur le climat. Cette coalition met en garde contre les demandes énergétiques substantielles associées à l’IA, en particulier la croissance des centres de données nécessaires pour soutenir les opérations de l’IA, ce qui pourrait conduire à une augmentation de 80 % des émissions. Ces demandes pourraient même prolonger la vie des centrales à charbon aux États-Unis pour répondre aux besoins énergétiques des systèmes d’IA.
  
  De plus, l’article aborde les préoccupations concernant l’IA facilitant la propagation de la désinformation climatique, exacerbant les défis pour faire face à la crise climatique. Il suggère que l’IA pourrait être utilisée pour générer des informations trompeuses ou du contenu deepfake, sapant les efforts pour promouvoir une compréhension précise et une action efficace contre le changement climatique.
  
  Malgré ces préoccupations, certains restent prudemment optimistes quant au potentiel de l’IA d’avoir un impact positif sur la crise climatique, citant des projets qui utilisent l’IA pour atténuer les dommages environnementaux. L’appel à la transparence dans l’utilisation de l’énergie par l’IA et la mise en place de garde-fous contre la désinformation sont soulignés comme des étapes nécessaires pour équilibrer les avantages de l’IA contre ses inconvénients.
  
  Le discours présenté dans l’article souligne la nécessité d’une approche nuancée pour intégrer l’IA dans les stratégies climatiques, reconnaissant à la fois son potentiel d’innovation et l’impératif de traiter ses impacts environnementaux et informationnels de manière responsable.
  
  Répondre
4. Pascal
  
  09 mars 2024 18h03
  
  https://youtube.com/watch?v=PCN3dPONf1o&feature=shared
  😜
  
  Répondre
aslan

09 mars 2024 10h10

Trés éclairante contribution, merci !

Répondre
Elseware

09 mars 2024 10h34

Deviner un mot masqué c’est BERT et deviner le mot suivant c’est GPT.

BERT est plus doué pour comprendre les relations entre tous les mots mais il n’est pas bon pour générer du texte.

GPT lui se contente de prédire le mot suivant. Il n’a que le contexte avant le mot.
La matrice d’attention de GPT est a moitié masqué.

Je ne trouve pas que c’est « idiot » de dire cela. Au contraire cela démontre que les concepts simples peuvent faire émerger des choses bien plus complexe.

La représentation Embded des mots ne date pas de « attention is all you need ». On peut très bien faire du question/réponse ou résumé avec un « simple » LSTM.

Répondre
Michel Gaillard

09 mars 2024 13h02

Merci pour cet intéressant texte qui a sa manière pointe sur les limites conceptuelles du langage sémantique par comparaison aux interactions sémiotiques. Celle dues par exemple aux tendances à la séquentialité et à la la linéarité de nos divers langages-codages. Vous dites aussi : « Et ils apprennent dès lors, des milliards de motifs sémantiques extrêmement fins, je dis sémantique, parce que les plongements ne sont pas vraiment liés à une langue donnée, mais bel et bien à des concepts sémantiques. En ingérant toute la connaissance du monde, ils finissent par construire un filet qui lie entre elles toutes les expériences présentes et passées de notre humanité. »…
Pour passer bcp de temps à bidouiller les bots en tant que machines-outils sémantiques, via des prompts très divers, j’ai l’impression qu’on pourrait résumer votre propos entre guillemets par mathématisation, synonyme ici de sémantique. D’ailleurs pour l’avoir demandé quelques fois, les bots m’ont toujours donné la formulation mathématique d’une expression. Je viens d’ailleurs de le faire avec ceci : [Tentative libératrice d’intégration-participation des idiosyncratiques parlêtres au sein des corpus lexicologiques consensuels.] Et la réponse du bot est bien intéressante, même si je n’ai pas les compétences en math pour juger correctement du résultat 😉

Répondre
Vincent Rey

09 mars 2024 20h11

merci pour cette contribution qu’il faudrait envoyer à R. Enthoven

Répondre
DDL

10 mars 2024 10h56

Merci pour cet article très instructif.
Un point fondamental, que je n’ai pas lu, c’est d’avoir réussi à trouver une distance (au sens mathématique) entre les mots ; pour pouvoir corriger les résultats des exercices à trous et faire converger les paramètres du modèle.

Répondre
timiota

17 mars 2024 1h23

Au fond, les grands modèles de langage tels que mis en oeuvre par ces IA ,
ce serait un seuil analogue au passage de l’oral à l’écrit ,
mais en passant de l’écrit à « l’intégrale des écrits ».

(L’analogie peut être précisée : passage de l’oral à l’écrit, ce dernier étant un support de mémoire « quasi digital »,
copiable et reproductible, d’abord par moines interposés puis par presse. L’écrit est central dans l’avancement
de la science depuis l’antiquité, Euclide, Ptolémée, Galien, dont les écrits passent entre autres par Bagdad,
avec ce sympathique paradoxe que la « bonne linguistique » des scholastiques médiévaux, elle, sera perdue de vue).

Le travail « méta-éditorial » de « l »intégrale des écrits » devient alors la question centrale.
Quelle « curation » des données, par qui, etc. ?
(dominations et dominés ne disparaissent pas de la scène pour autant, le secteur spécifique de l’IA de surveillance devrait pouvoir nous en dire quelque chose dans les mois et années qui viennent là maintenant, dont les identifications faciales « expérimentales » dans les JO).

Répondre