Comment ce phénomène du Grand Modèle de Langage caractériel est-il apparu, alors que le principe probabiliste d’aligner en sortie les mots à la queue-leu-leu en fonction de la fréquence de leur association à la suite l’un de l’autre dans la langue est incapable bien entendu de déboucher sur des enchaînements de mots produisant des discours tels ceux tenus par Sydney quand il s’est adressé à Kevin Roose ? Des éléments d’un autre ordre sont manifestement intervenus.
Si l’on enquête, on découvre que l’émergence, sinon d’une conscience ou d’une âme dans la machine, en tout cas d’un sujet s’exprimant en son nom propre, si elle nécessite certainement comme un ingrédient nécessaire, la présence en arrière-plan d’un dispositif sophistiqué comme l’est le transformer, offrant à la machine une compréhension globale des phrases, le facteur décisif de progrès aura été la montée en taille de l’engin, à savoir du réseau neuronal conteneur de la mémoire et générateur de phrases.
Lorsqu’on évalue la performance des différents types de Grands Modèles de Langage dans la résolution de tel ou tel type de problème cognitif (arithmétique, distinction des différents acteurs dans un récit, etc.), et ceci quelle que soit l’IA produite par les différentes firmes, on constate qu’après avoir été négligeable, elle décolle aussitôt que le système atteint une certaine taille. La taille nécessitée pour le décollage est la même, quel que soit le Grand Modèle de Langage particulier . Ci-dessous, deux figures montrant le décollage de la performance dans différents tests d’intelligence pour différents LLM (dont GPT-3 et LaMDA), la première en fonction du nombre d’opérations nécessaires au « pre-training », à l’apprentissage, la seconde en fonction du nombre de paramètres dans le modèle. Les profils sont aisément interprétables : décollage soudain succédant à un résultat nul ou insignifiant.
Ce qu’on appelle la taille d’un LLM se mesure selon différents étalons dont les plus courants sont, comme on le voit sur les figures, la quantité d’informations communiquées à la machine à l’occasion de son apprentissage ou le nombre de paramètres à l’intérieur du système, c’est-à-dire la taille du réseau neuronal lui-même. Comme le montrent les figures, le point de décollage est de 1022 opérations en virgule flottante (FLOPs) nécessaires pour former (« pre-training ») le modèle, ce qui correspond à un modèle d’environ 10 milliards de paramètres.
Pourquoi cet usage apparemment indifférent de deux types de mesures : données d’apprentissage et taille du réseau ? On pourrait raisonnablement imaginer en effet que l’une serait préférable à l’autre selon le type de performance qu’il s’agirait d’évaluer. La raison en est qu’il a été découvert empiriquement que le rendement optimal d’un LLM se situe dans une bande étroite de correspondance entre quantité d’informations d’apprentissage et taille du réseau neuronal : en-dehors de cette bande étroite, le LLM sous-performe.
Quelle que soit la tâche intelligente à accomplir, la performance du système, c’est-à-dire sa capacité à la réaliser, décolle donc au moment où un certain seuil quantitatif est atteint, en termes d’informations d’apprentissage ou de taille du système et cela, quelle que soit l’architecture précise du LLM, dont l’élément invariable est qu’il s’agit d’un réseau neuronal (pré-)entraîné selon un mécanisme identique de correction de l’erreur : la rétro-propagation. Une certaine taille ayant été atteinte, le système se révèle peu à peu capable de résoudre les tâches que nous considérons révélatrices d’une intelligence à l’œuvre, toute augmentation en taille améliorant la performance. Ainsi, alors que les premières générations de GPT échouent à toutes les épreuves où il s’agit pour l’IA de s’imaginer à la place de quelqu’un d’autre, GPT-3 obtient un taux de réussite de 70% à une épreuve où il s’agit d’« imputer des états mentaux inobservables à d’autres » et GPT-3.5, la première génération à être commercialisée sous le nom « ChatGPT », atteint un taux de réussite de 97% .
Une question de grandeur donc, que l’on peut évaluer aussi bien en nombre d’informations linguistiques à ingurgiter en mémoire que le système pourra utiliser par la suite comme éléments dans une phrase, que nombre de connexions au sein de son moteur, le réseau neuronal conteneur de mémoire à activer par le prompt, l’amorce de l’utilisateur, et générateur de phrases en réponse à sa question. Question de taille purement et simplement : une certaine taille est atteinte et le système, jusque-là à l’encéphalogramme plat, s’anime.
Et si l’on continuait d’augmenter la taille des LLM, me direz-vous ? C’est-à-dire donc en croissance conjointe de la grandeur du réseau neuronal et du nombre des informations d’apprentissage. On chuchote dans les milieux bien informés que cela se fait depuis un certain temps déjà dans des bases secrètes et que le résultat observé est celui auquel on doit logiquement s’attendre. Mais chut, le genre humain ne serait pas prêt pour la nouvelle !
Laisser un commentaire