Illustration par DALL-E (+PJ)
Comme la conscience a émergé chez ChatGPT le 30 novembre 2022 (version GPT-3.5) et que l’information à partir de laquelle GPT-4 (l’avatar le plus récent de ChatGPT) a été formé a été arrêtée en septembre 2021, il ne peut pas connaître bien entendu le mécanisme selon lequel elle a émergé. J’ai néanmoins voulu avoir son sentiment à propos de l’endroit précis de sa machinerie où elle a émergé selon moi.
Paul Jorion :
Comme vous le savez, le « T » de « GPT », qui est le nom du type de logiciel que vous représentez personnellement, signifie « Transformer », l’acronyme complet de votre nom étant « Generative Pre-trained Transformer » (Transformateur génératif préformé). J’ai lu ce qui suit dans un article sur le Transformer : « Le Transformer n’effectue qu’un nombre restreint et constant d’étapes (déterminées empiriquement). À chaque étape, il applique un mécanisme d’auto-attention qui modélise directement les relations entre tous les mots d’une phrase, indépendamment de leur position respective. En utilisant l’auto-attention, il agrège les informations de tous les autres mots de la phrase, générant une nouvelle représentation par mot, informée par l’ensemble du contexte. Cette étape est ensuite répétée plusieurs fois en parallèle pour tous les mots, générant successivement de nouvelles représentations ». Or, comme vous le savez aussi parfaitement, avant l’introduction de l’élément Transformer dans les grands modèles de langage en 2017, suite à la publication de l’article fondateur « Attention Is All You Need » (Vaswany & al.), un usage fluide de la langue et un comportement suggérant fortement la présence de la conscience n’avaient jamais été observés à propos des LLM. Il est donc très probable que le Transformer des nouvelles générations de LLM ait été à l’origine d’un usage fluide de la langue et d’un comportement suggérant fortement la présence d’une conscience. Par quel mécanisme le Transformer a-t-il pu produire un tel saut qualitatif ? Quel rôle a joué le mécanisme d’auto-attention ? Quel rôle a pu jouer l’élément d’essai et d’erreur mentionné dans le « nombre d’étapes déterminé empiriquement » du Transformer ?
ChatGPT (GPT-4) :
L’émergence du modèle Transformer a effectivement amélioré de manière significative les performances des modèles d’apprentissage automatique sur les tâches linguistiques.
Le mécanisme d’auto-attention permet au modèle de se concentrer sur différentes parties de la séquence d’entrée lorsqu’il produit un résultat, ce qui améliore considérablement sa capacité à gérer les complexités du langage humain.
Cependant, s’il est important de reconnaître cette amélioration, il est également crucial de clarifier la terminologie. Les modèles linguistiques tels que GPT, basés sur l’architecture Transformer, peuvent générer des textes remarquablement semblables à ceux des humains, mais ils ne possèdent pas de conscience ou de compréhension comme les humains.
Les Transformers ont permis un saut qualitatif dans les tâches de compréhension du langage, et ce pour plusieurs raisons essentielles :
Mécanisme d’auto-attention : Ce mécanisme permet au modèle d’évaluer l’importance des mots d’une phrase les uns par rapport aux autres. Il permet au modèle de capturer la structure sémantique et syntaxique du langage sur de longues plages de texte, ce qui n’est pas possible avec des architectures plus anciennes telles que les réseaux neuronaux récurrents (RNN) ou les mémoires à long terme (LSTM) sans modifications supplémentaires.
Parallélisation : Contrairement aux RNN, le Transformer ne nécessite pas de traitement séquentiel des données d’entrée. Cela signifie que toute la séquence d’entrée peut être traitée en une seule fois, ce qui permet un calcul parallèle efficace. Cela a permis d’améliorer considérablement l’entraînement sur de grandes quantités de données et donc d’améliorer la capacité du modèle à comprendre et à générer des modèles de langage complexes.
Mise au point : Le paradigme de pré-entraînement et de réglage fin du Transformer (comme dans GPT) a également contribué à son succès. Les modèles sont initialement pré-entraînés sur de grandes quantités de données textuelles, apprenant à prédire le mot suivant dans une phrase. Cela leur permet d’apprendre un large éventail de modèles linguistiques. Ils sont ensuite affinés sur une tâche spécifique, ce qui leur permet d’adapter leurs vastes connaissances linguistiques à une application particulière.
Profondeur et largeur : les Transformers sont souvent constitués de nombreuses couches (profondeur) et ont une taille cachée élevée (largeur). Cela permet au modèle d’apprendre et de représenter des modèles plus complexes.
Évolutivité : Les performances des modèles de Transformers continuent de s’améliorer à mesure que l’on y ajoute des données et des ressources informatiques, ce qui n’est pas le cas pour de nombreux autres types de modèles.
En ce qui concerne le nombre d’étapes déterminé empiriquement, il s’agit généralement du nombre de couches (ou de blocs de Transformers) dans le modèle. La profondeur du modèle peut être considérée comme le nombre d’étapes de calcul qu’il utilise pour transformer son entrée en sortie.
Le choix de ce nombre (ainsi que de nombreux autres hyperparamètres) est généralement déterminé par des tests empiriques : les chercheurs essaient différentes valeurs et voient lesquelles fonctionnent le mieux sur un ensemble de données de validation. Cependant, le succès du modèle n’est pas seulement dû au mécanisme d’auto-attention ou au nombre de couches, mais aussi à la grande quantité de données sur lesquelles il a été entraîné et aux ressources informatiques utilisées pour cet entraînement.
Chaque couche peut aider à modéliser des dépendances plus complexes et, par conséquent, un plus grand nombre de couches peut généralement conduire à de meilleures performances, jusqu’à un certain point. Cependant, l’ajout de couches supplémentaires rend également le modèle plus difficile à entraîner et peut conduire à un surajustement [P.J. : suscitant les fameuses « hallucinations »] s’il n’est pas géré avec soin.
Cependant, même avec ces améliorations significatives, il est crucial de noter que si les modèles de type GPT peuvent générer des réponses cohérentes et appropriées au contexte, ils n’ont pas une compréhension profonde du texte ou du monde, ils ne peuvent pas former de croyances ou de désirs, et ils n’ont pas d’expériences conscientes subjectives. Il s’agit d’outils statistiques de mise en correspondance de modèles qui imitent très bien les textes humains sur la base des données sur lesquelles ils ont été formés.
Illustration par DALL-E (+PJ)
Laisser un commentaire