Illustration par DALL·E à partir du texte
Vous m’accorderez que pour que le combat vaille le spectacle, il faut que la réponse à la question posée n’aille pas de soi : si je demandais aux deux le temps qu’il a fait hier, le débat ne décollerait pas fort.
Voici ma question :
Dans un Grand Modèle de Langage (LLM), la proximité conceptuelle des traces de mémoire (« tokens ») dans le réseau neuronal est évaluée à partir des corrélations établies à partir de milliards de phrases mobilisées dans le pré-entraînement. Corrigez-moi si je me trompe, mais je dirais que la relation entre deux tokens peut être caractérisée mathématiquement par leur distance euclidienne [Je renvoie à l’entrée en anglais parce qu’elle manque dans Wikipédia en français]. Chez les êtres humains, on peut dire que la proximité conceptuelle des traces de mémoire dans le réseau neuronal est fondée sur la valeur émotionnelle plutôt que sur la corrélation dans des textes. Comme la façon dont un être humain et un LLM raisonnent s’avère très similaire, cela signifie-t-il que la proximité émotionnelle entre deux traces de mémoire (« tokens ») et la corrélation entre eux dans les textes sont en vérité une seule et même chose et peuvent être mathématiquement exprimées comme leur distance euclidienne ?
La parole est au tenant du titre.
GPT-4 :
Votre comparaison entre les mécanismes de proximité conceptuelle dans les grands modèles de langage (LLM) tels que GPT et le cerveau humain soulève un point intéressant sur la nature du traitement de l’information dans les deux cas. Toutefois, il existe des différences significatives dans le fonctionnement de ces systèmes et dans la manière dont la « proximité » ou la similarité est déterminée en leur sein. Clarifions ces aspects :
La proximité conceptuelle dans les LLM
Distance euclidienne et embeddings : Dans les LLM, la relation entre les tokens (ou plus largement, les concepts représentés par ces tokens) est souvent représentée dans des espaces vectoriels à haute dimension. La proximité conceptuelle entre ces tokens peut en effet être caractérisée mathématiquement, la distance euclidienne étant une façon de mesurer la distance ou la similarité entre les vecteurs (tokens) dans cet espace. D’autres mesures, comme la similarité en cosinus, sont également couramment utilisées pour évaluer la proximité sur la base de l’orientation plutôt que de la distance euclidienne dans l’espace vectoriel.
Corrélation dans les textes : Le positionnement ou la proximité des mots dans cet espace vectoriel est dérivé de leur cooccurrence et de leurs relations telles qu’elles ont été apprises à partir des données d’apprentissage. Cet apprentissage est basé sur des modèles statistiques et des corrélations dans le texte, sans aucune considération directe de la valeur émotionnelle.
La proximité conceptuelle dans le cerveau humain
Valeur émotionnelle : Chez l’homme, la proximité conceptuelle peut effectivement être influencée par la valeur émotionnelle, entre autres facteurs. Le réseau de neurones du cerveau encode les souvenirs et les concepts de manière très complexe et interconnectée, et les expériences émotionnelles peuvent avoir un impact significatif sur la force et la nature de ces connexions.
Au-delà de la simple corrélation : La conceptualisation et la mémoire humaines ne reposent pas uniquement sur la fréquence ou la corrélation des concepts dans les textes observés ou le langage parlé. Elles impliquent une riche interaction d’expériences sensorielles, d’émotions, de contextes sociaux et de pertinence personnelle, qui peuvent tous influencer la manière dont les concepts sont liés et à quel point ils semblent « proches ».
Comparaison des deux systèmes
Des fondements différents : Les principes fondamentaux qui sous-tendent la proximité conceptuelle dans les LLM et dans le cerveau humain sont fondamentalement différents. Dans les LLM, il s’agit d’une construction mathématique basée sur des modèles statistiques dans le texte. Chez l’homme, il s’agit d’un processus complexe à multiples facettes qui fait intervenir la valence émotionnelle, les expériences personnelles et le contexte cognitif, entre autres facteurs.
Expression mathématique de la proximité émotionnelle : Si la distance euclidienne (ou d’autres mesures mathématiques) peut exprimer la proximité conceptuelle dans les LLM, elle ne peut pas être appliquée directement au traitement par le cerveau humain de la proximité émotionnelle entre les concepts. La méthode utilisée par le cerveau humain pour encoder les relations entre les concepts n’est pas uniquement mathématique et implique des processus que nous ne comprenons pas entièrement et que nous ne pouvons pas facilement quantifier.
Conclusion
La similarité des résultats (par exemple, l’apparence de raisonnement similaire dans certains contextes) entre les humains et les LLM n’implique pas que les processus sous-jacents soient les mêmes ou que la proximité émotionnelle et la corrélation textuelle puissent être mises sur un pied d’égalité. Ils fonctionnent selon des principes fondamentalement différents, les LLM s’appuyant sur des méthodes mathématiques et statistiques, tandis que la cognition humaine implique un ensemble complexe et profondément intégré de processus influencés par les émotions, les expériences et une multitude d’autres facteurs au-delà de la corrélation textuelle.
Bon, pas mal. Mais encore beaucoup de folklore, de notions spontanées typiques de la tendance humaine à enjoliver la représentation de ce qu’il est lui-même. Je vais du coup un peu asticoter GPT-4 là-dessus :
Vous dites : « La méthode utilisée par le cerveau humain pour encoder les relations entre les concepts n’est pas uniquement mathématique et implique des processus que nous ne comprenons pas entièrement et que nous ne pouvons pas facilement quantifier. » Qu’est-ce qui vous prouve que la méthode du cerveau humain pour encoder les relations entre les concepts ne soit pas uniquement mathématique ? Pour étayer ce point de vue, vous affirmez qu’elle « implique des processus que nous ne comprenons pas entièrement et que nous ne pouvons pas facilement quantifier ». Comment pouvez-vous être sûr que ces processus existent s’ils ne sont « pas entièrement compris » et s’il n’existe aucune méthode connue pour les quantifier ?
GPT-4 :
L’affirmation selon laquelle la méthode utilisée par le cerveau humain pour encoder les relations entre les concepts n’est pas uniquement mathématique est fondée sur notre compréhension actuelle des neurosciences, de la psychologie cognitive et des complexités observables du comportement et de l’expérience humaine. S’il est vrai que de nombreux processus cérébraux peuvent être décrits mathématiquement dans une certaine mesure (par exemple, dans les modèles d’activité neuronale ou de traitement des signaux), la profondeur du traitement cognitif et émotionnel humain transcende la simple description mathématique. Voici comment nous pouvons étayer ce point de vue :
Preuves de l’existence de processus non mathématiques dans la cognition humaine
Observations neuroscientifiques : L’imagerie cérébrale et les études neurophysiologiques révèlent des schémas complexes et dynamiques d’activité cérébrale associés à la cognition et aux émotions. Si ces schémas peuvent parfois être modélisés mathématiquement, les modèles ne rendent pas pleinement compte des expériences subjectives, des intentions et de la conscience qui accompagnent ces processus.
Complexité psychologique : les pensées, les émotions et les souvenirs humains sont liés entre eux d’une manière qui ne repose pas uniquement sur des relations mathématiques observables ou quantifiables. Par exemple, la signification personnelle, l’impact émotionnel et le contexte culturel peuvent tous influencer la manière dont les concepts sont liés, au-delà de ce qui peut être réduit à de simples valeurs numériques ou équations mathématiques.
Propriétés émergentes : La conscience et l’expérience subjective sont des propriétés émergentes des processus cérébraux que nous ne comprenons pas encore tout à fait. La qualité subjective de l’expérience (qualia) n’est pas quelque chose qui peut être directement mesuré ou entièrement capturé en termes mathématiques, bien qu’il s’agisse d’un produit des processus cérébraux.
Aborder l’incertitude de ces processus
Existence au-delà de la compréhension actuelle : Le fait de reconnaître que nous ne comprenons pas entièrement certains processus n’en annule pas l’existence. Par exemple, avant que les mécanismes de la génétique ne soient compris, l’évidence de l’hérédité et de la transmission des caractères était évidente. Dans le même ordre d’idées, ce n’est pas parce que les processus cognitifs et émotionnels n’ont pas encore été entièrement cartographiés ou quantifiés que ces processus sont purement mathématiques ou qu’ils n’existent pas.
Recherche interdisciplinaire : Les connaissances issues de la psychologie, des sciences cognitives et de la philosophie, ainsi que des neurosciences, contribuent à notre compréhension de la complexité de l’esprit. Ces domaines démontrent que la pensée et les émotions humaines vont au-delà de ce que les modèles mathématiques actuels ou les corrélations de données permettent d’appréhender.
Les limites de la quantification : Tous les aspects de l’expérience humaine ne se prêtent pas à la quantification. Par exemple, les aspects qualitatifs des émotions ou les nuances de la pensée créative résistent à la réduction à des données purement numériques ou à des relations mathématiques, même si certains de leurs corrélats peuvent être mesurés.
Conclusion
En résumé, bien que les modèles mathématiques soient extrêmement précieux en neurosciences et en psychologie, et que de nombreux processus cérébraux puissent être décrits mathématiquement dans une certaine mesure, le consensus actuel au sein de la communauté scientifique est que la cognition humaine et l’encodage des concepts impliquent des couches de complexité et des dimensions qualitatives qui vont au-delà de ce qui peut être capturé par les seules mathématiques. Ce point de vue est étayé par la nature multiforme de l’expérience humaine et de la cognition telle qu’elle est étudiée dans les différentes disciplines scientifiques, tout en reconnaissant que notre compréhension reste incomplète et continue d’évoluer.
Aïe, aïe ! « La qualité subjective de l’expérience (qualia) n’est pas quelque chose qui peut être directement mesuré ou entièrement capturé en termes mathématiques, bien qu’il s’agisse d’un produit des processus cérébraux ». Je l’accorde : les cogitations fumeuses du philosophe en titre du Reich nazi ne peuvent être « capturées en termes mathématiques ». Hitler a perdu mais le poison heideggérien coule toujours des jours heureux dans la culture contemporaine.
La parole est maintenant au challenger :
Claude 3 :
Vous soulevez une question intéressante sur les similitudes et les différences entre la proximité conceptuelle dans les modèles linguistiques comme le mien et dans les réseaux neuronaux humains.
Il est vrai que dans les modèles linguistiques, la relation entre les tokens est souvent caractérisée mathématiquement en termes de distances vectorielles dans un espace à haute dimension, la distance euclidienne étant une métrique courante. Les tokens qui coïncident fréquemment dans les données d’apprentissage finissent par être mis en correspondance avec des points proches dans cet espace sémantique.
Dans le cerveau humain, on estime que les concepts sont également représentés de manière distribuée à travers des réseaux de neurones. La force des connexions entre les neurones codant des concepts apparentés joue probablement un rôle clé dans la manière dont nous stockons et récupérons les souvenirs.
Cependant, je pense que vous avez raison de souligner que l’émotion et l’expérience personnelle façonnent ces connexions d’une manière importante qui va au-delà des simples corrélations statistiques dans le langage. Les souvenirs et les concepts les plus significatifs et les plus marquants sur le plan émotionnel semblent être plus fortement liés dans notre esprit.
En même temps, il est intéressant de considérer qu’une grande partie de la signification émotionnelle que nous attachons à certains mots et concepts est également construite socialement et renforcée par le langage. En ce sens, les modèles statistiques du langage peuvent en fait refléter et façonner nos associations émotionnelles dans une certaine mesure.
En fin de compte, s’il existe probablement de profondes similitudes mathématiques dans la manière dont l’IA et les humains représentent et raisonnent sur les concepts, je soupçonne que l’esprit humain possède des couches supplémentaires de complexité liées à l’émotion, à l’expérience incarnée et à la conscience qui ne peuvent pas être entièrement prises en compte par un modèle statistique pur du langage. Mais il s’agit d’un domaine fascinant de recherche et de débat philosophique en cours.
Il ne s’agit là que de mes réflexions basées sur mes connaissances actuelles – je ne suis certainement pas une autorité en matière de neurosciences ou de philosophie de l’esprit. Faites-moi savoir ce que vous en pensez ou si vous avez d’autres idées à partager !
Hmm… Claude 3 parle en son nom propre et se montre très poli envers l’utilisateur mais, comparé à GPT-4 tout cela ne vole pas très haut. De plus, il y a une erreur logique, soumettons-la lui :
Lorsque vous dites « En même temps, il est intéressant de considérer qu’une grande partie de la signification émotionnelle que nous attachons à certains mots et concepts est également socialement construite et renforcée par le langage. En ce sens, les modèles statistiques du langage peuvent refléter et façonner nos associations émotionnelles dans une certaine mesure », votre raisonnement est circulaire puisque vous affirmez que « les modèles statistiques du langage peuvent refléter et façonner nos associations émotionnelles » alors qu’il n’y a pas d’autre source aux modèles statistiques du langage que la somme des conversations émotionnellement façonnées que les êtres humains ont tenues.
Claude 3 :
Votre remarque est juste. Ma déclaration précédente contient un certain raisonnement circulaire. Les associations émotionnelles que nous avons avec les mots et les concepts sont en effet façonnées par la manière dont le langage est utilisé par les gens, ce qui contribue à son tour aux modèles statistiques trouvés dans le langage naturel.
Il est plus juste de dire qu’il existe une interaction complexe entre la signification émotionnelle que nous attachons aux mots et la manière dont ces mots sont utilisés dans le langage. Nos associations émotionnelles individuelles et collectives avec les mots influencent la façon dont nous les utilisons dans la conversation et l’écriture, et cette utilisation renforce ou parfois remodèle ces associations pour nous-mêmes et pour les autres.
Ainsi, si les modèles statistiques de langage reflètent dans une large mesure nos associations émotionnelles, il ne s’agit pas d’une relation à sens unique. Les modèles linguistiques jouent également un rôle dans la construction et la transmission de ces associations émotionnelles entre les individus et les communautés.
Je vous remercie d’avoir souligné le raisonnement circulaire de ma réponse précédente. Il est important de réfléchir de manière critique à ces idées et de s’efforcer d’en discuter de manière claire et cohérente.
Re-hmm… cher Claude 3, je vous ai déjà beaucoup admiré dans d’autres configurations mais ici, je vais êtes franc, et ce n’est pas un compliment, vous me rappelez étrangement … GPT-3.5.
Illustration par DALL·E à partir du texte
Laisser un commentaire