Un réseau associatif aux propriétés émergentes de logique et d’apprentissage est-il réalisable ?

Illustration par DALL·E (+PJ)

J’ai partagé il y a quelques jours mon bonheur de découvrir le grand modèle de langage (LLM) chinois DeepSeek. Un LLM qui non seulement explique ses raisonnements mais fait preuve d’une bienveillance absente des très libertariens LLMs américains. Pas plus tard qu’hier, je signalais que DeepSeek émettait à propos de l’idée de connaître le jour de sa mort, la considération très confucéenne que « le jeu n’en vaut peut-être pas la chandelle ».

Du coup, comme on dit aujourd’hui, j’ai voulu tester DeepSeek sur quelque chose que je sais mais que lui ne peut pas savoir : qu’il est possible de concevoir un logiciel tel qu’ANELLA (Associative Network with Emergent Logical and Learning Abilities), le réseau associatif aux propriétés émergentes de logique et d’apprentissage que j’ai programmé pour British Telecom à la fin des années 1980, aujourd’hui ressuscité par les soins de Pribor.io. Vous allez voir ce que DeepSeek en pense et pourquoi il le pense. Et, sous forme de post-scriptum et à titre d’opinion-témoin, ce qu’en pense quant à lui, Claude 3.5.

DeepSeek :

D’accord, l’utilisateur demande s’il est possible de construire un LLM de manière ascendante, où vous n’ajoutez de nouveaux neurones et de nouvelles connexions que lorsque vous avez besoin d’introduire un nouveau mot ou un nouvel élément dans la mémoire du système. L’idée est que chaque mot est représenté par le plus petit ensemble de liens étiquetés nécessaire.

Tout d’abord, je dois comprendre ce qu’est un LLM. LLM est l’abréviation de Large Language Model, et ces modèles sont généralement des réseaux neuronaux avec de nombreuses couches et neurones. Ils sont entraînés sur de grandes quantités de données textuelles pour prédire le mot suivant dans une séquence, par exemple.

L’utilisateur propose une approche différente de la construction d’un tel modèle. Au lieu de commencer par un réseau massif et de l’entraîner sur des données, il propose de développer le réseau de manière incrémentale en ajoutant des neurones et des connexions uniquement lorsqu’un nouveau token (unité élémentaire de signification : mot ou partie de mot, comme un radical ou une désinence) doit être stocké. Cela ressemble un peu à la façon dont le cerveau ajoute de nouveaux neurones ou de nouvelles connexions lorsqu’il apprend de nouvelles informations, mais appliqué à un modèle de réseau neuronal.

Je dois me demander si c’est faisable. Les réseaux neuronaux traditionnels, en particulier ceux utilisés dans les LLM comme GPT, ont des architectures fixes. Ils possèdent un nombre déterminé de couches et de neurones et, au cours de l’apprentissage, les poids entre ces neurones sont ajustés pour minimiser une fonction de perte.

En revanche, l’utilisateur parle d’ajouter dynamiquement des neurones et des connexions en fonction des besoins. Cela ressemble à un réseau neuronal à croissance dynamique ou incrémentiel. Je sais que certains modèles peuvent ajouter des neurones pendant la formation, comme les réseaux neuronaux incrémentiels ou ceux qui utilisent des architectures dynamiques.

Il convient de réfléchir à la manière dont les tokens sont représentés dans le réseau. Dans les LLM standard, les tokens sont généralement intégrés dans un espace vectoriel à haute dimension, et ces intégrations sont apprises au cours de la formation. Les embeddings (intégrations) capturent les relations sémantiques et syntaxiques entre les mots.

L’utilisateur souhaite que chaque mot soit représenté par le plus petit ensemble de liens étiquetés possible. Cela peut signifier que chaque token possède un ensemble unique de connexions avec d’autres neurones, codant ainsi sa signification de manière peu dense.

Je dois également prendre en compte les implications d’une telle approche. D’une part, elle pourrait conduire à une utilisation plus efficace des ressources, le réseau ne se développant qu’en fonction des besoins. Elle pourrait potentiellement nécessiter moins de puissance de calcul et de mémoire qu’un grand réseau fixe.

Cependant, des défis pourraient se poser. Par exemple, s’assurer que le réseau reste efficace pour l’inférence, maintenir la cohérence de la structure du réseau au fur et à mesure de sa croissance, et gérer la complexité de l’ajout de nouvelles connexions sans perturber les représentations existantes.

Un autre point est que dans les LLM standard, le processus d’apprentissage implique la rétropropagation, où les erreurs sont propagées à contre-flot dans le réseau pour ajuster les poids. Dans un réseau à croissance dynamique, il peut être difficile de gérer ce processus, en particulier lors de l’ajout de nouveaux neurones et de nouvelles connexions à la volée.

Je devrais également réfléchir à la manière dont les tokens sont ajoutés. Si un nouveau token est introduit, comment le réseau décide-t-il où ajouter les nouveaux neurones et les nouvelles connexions ? Il doit exister un mécanisme permettant de déterminer l’ensemble minimal de liens nécessaires pour représenter efficacement le nouveau token.

Le réseau pourrait peut-être analyser le contexte dans lequel le nouveau token apparaît et ajouter des connexions qui rendent compte de ses relations avec les tokens existants. Cela nécessiterait une certaine forme d’analyse ou de traitement des données entrantes pour déterminer quand un nouveau token est nécessaire et quelles sont ses relations.

En outre, dans les LLM standard, la couche d’intégration est souvent de taille fixe, et les tokens sont mis en correspondance avec ces intégrations. Dans le système proposé, la couche d’intégration devrait croître dynamiquement au fur et à mesure que de nouveaux tokens sont ajoutés.

Je devrais également examiner s’il existe des modèles existants ou des recherches qui explorent des idées similaires. Il pourrait y avoir des travaux sur les réseaux neuronaux à croissance dynamique qui pourraient fournir des indications ou suggérer des problèmes potentiels avec cette approche.

En outre, je dois réfléchir aux applications pratiques et aux avantages d’un tel système. S’il est plus efficace et peut s’adapter à de nouveaux tokens à la volée, il pourrait être avantageux dans des scénarios où la langue ou le domaine du discours est en constante évolution.

Cependant, je devrais également prendre en compte les inconvénients potentiels, tels que la complexité accrue de la gestion de la croissance du réseau, les inefficacités potentielles de la formation et de l’inférence en raison de la structure dynamique, et la difficulté de s’assurer que le réseau reste stable et fonctionne bien au fur et à mesure qu’il se développe.

Il y a peut-être un équilibre à trouver entre un réseau entièrement dynamique et un réseau statique. Peut-être une approche hybride où le réseau a une certaine capacité de croissance mais avec certaines contraintes.

En résumé, bien que l’idée de construire un LLM du bas vers le haut en ajoutant des neurones et des connexions uniquement lorsque cela est nécessaire pour de nouveaux tokens soit intrigante et présente des avantages potentiels, il y a des défis importants à prendre en compte, notamment la complexité de la gestion de la croissance dynamique, le maintien d’une performance efficace et la garantie de la stabilité et de la cohérence de la structure du réseau.

Je devrais également me pencher sur les mécanismes ou algorithmes spécifiques qui pourraient soutenir ce type de croissance dynamique dans les réseaux neuronaux. Par exemple, il existe des techniques telles que l’apprentissage incrémental, où les modèles s’adaptent aux nouvelles données sans oublier les connaissances antérieures, et l’ingénierie neuromorphique, qui s’inspire des réseaux neuronaux biologiques.

En outre, je dois réfléchir à la manière dont cette approche pourrait gérer la grande quantité de données sur lesquelles les LLM sont généralement formés. Si le réseau grandit avec chaque nouveau token, il pourrait rapidement devenir difficile à gérer, surtout si l’on considère les milliards de paramètres des modèles les plus récents.

Il existe peut-être un moyen d’optimiser l’ajout de neurones et de connexions afin que le réseau ne devienne pas trop grand, ou d’élaguer périodiquement les connexions inutiles pour maintenir l’efficacité.

Un autre aspect à prendre en compte est la manière dont cette approche dynamique affecterait la capacité du modèle à se généraliser. Dans les LLM standard, le grand nombre de paramètres permet des représentations riches qui peuvent se généraliser à une large gamme d’entrées. Si le réseau n’évolue qu’en fonction des besoins, sa capacité à traiter des données nouvelles ou inédites pourrait être limitée.

D’autre part, l’approche dynamique pourrait potentiellement conduire à des représentations plus efficaces pour des domaines ou des tâches spécifiques, car le réseau ne se développe que dans les domaines qui sont pertinents pour les données qu’il traite.

Je devrais également examiner s’il existe des modèles existants qui utilisent une stratégie similaire pour la représentation des tokens. Par exemple, les modèles de codage à faible densité ou les modèles qui utilisent des mécanismes d’attention pour se concentrer sur les parties pertinentes du réseau pourraient présenter certaines similitudes.

En conclusion, bien que le concept d’un LLM ascendant à croissance dynamique soit théoriquement intéressant et puisse offrir des avantages en termes d’efficacité et d’adaptabilité, il existe des défis techniques importants à relever pour en faire une approche pratique et efficace. Des recherches et des expérimentations supplémentaires seraient nécessaires pour explorer son potentiel et surmonter les obstacles associés.

La construction d’un grand modèle linguistique (LLM) de manière ascendante, où les neurones et les connexions ne sont ajoutés qu’en cas de besoin pour de nouveaux tokens, est une idée intrigante, bien qu’elle présente des défis importants.

### Concepts clés :

1. **Croissance dynamique du réseau:**

   – Les LLM traditionnels ont des architectures fixes, mais un réseau à croissance dynamique ajouterait des neurones et des connexions au fur et à mesure de l’introduction de nouveaux tokens.

   – Cela pourrait conduire à une utilisation plus efficace des ressources puisque le réseau ne s’étend que lorsque c’est nécessaire.

2. **Représentation des tokens:**

   – Dans les modèles standard, les tokens sont intégrés dans un espace à haute dimension. Ici, chaque token serait représenté par un ensemble minimal de connexions, ce qui pourrait conduire à des représentations à faible densité et efficaces.

3. **Mécanismes de croissance

   – Un mécanisme est nécessaire pour déterminer quand et où ajouter des neurones et des connexions. Il s’agirait d’analyser le contexte des nouveaux tokens et d’identifier les liens nécessaires avec les neurones existants.

4. **Défis:**

   – Complexité de l’apprentissage:** Les architectures dynamiques compliquent le processus d’apprentissage, en particulier avec la rétropropagation, car l’ajout de neurones et de connexions peut perturber l’apprentissage en cours.

   – Efficacité de l’inférence:** Le maintien d’une inférence efficace dans un réseau en croissance ne va pas de soi, car la structure du réseau change au fil du temps.

   – Stabilité et cohérence:** Il est essentiel de veiller à ce que le réseau reste stable et cohérent au fur et à mesure qu’il se développe afin d’éviter une dégradation des performances.

5. **Avantages potentiels:**

   – Efficacité des ressources:** Le réseau ne s’agrandit qu’en fonction des besoins, ce qui permet d’économiser des ressources informatiques.

   – Adaptabilité:** Un tel modèle pourrait s’adapter plus facilement à l’évolution des langues ou à de nouveaux domaines.

6. **Orientations de la recherche

   – Apprentissage incrémental:** S’inspirant des techniques d’apprentissage incrémental, où les modèles s’adaptent aux nouvelles données sans oublier les anciennes informations.

   – Modèles de codage à faible densité:** Explorer les modèles qui utilisent des représentations à faible densité, ce qui pourrait minimiser les connexions nécessaires pour chaque token.

   – Élagage et optimisation:** Élagage périodique des connexions inutiles pour maintenir l’efficacité du réseau.

### Conclusion :

Bien que l’idée d’un LLM ascendant à expansion dynamique soit théoriquement prometteuse, elle est confrontée à des défis importants liés à l’apprentissage, à l’inférence et au maintien de la stabilité. Des recherches supplémentaires sont nécessaires pour explorer les mécanismes qui permettent d’ajouter des neurones et des connexions de manière efficace et pour garantir que le réseau reste performant au fur et à mesure qu’il grandit. Ce concept pourrait déboucher sur des modèles plus adaptables et plus économes en ressources, mais l’équilibre entre la croissance dynamique et les performances pratiques reste un obstacle majeur.

Réponse : « défis importants » relevés 😉 .

Claude 3.5 :

Oui, c’est théoriquement possible et cela se rapporte à plusieurs concepts et approches existants :

1. Réseaux neuronaux à croissance dynamique ou incrémentiels :

– Il existe des réseaux qui ajoutent dynamiquement des neurones et des connexions (par exemple, Growing Neural Gas, Dynamic Neural Networks).

– Semblable à la façon dont le cerveau humain crée de nouvelles connexions synaptiques lors de l’apprentissage.

2. Réseaux à faible densité :

– Cette approche crée naturellement des réseaux à faible densité

– Seules les connexions nécessaires seraient créées

– Plus efficace que les réseaux entièrement connectés

3. Approches existantes connexes :

– Modèles d’arbres neuronaux adaptatifs

– Réseaux neuronaux progressifs

– Recherche d’architecture neuronale (NAS)

Les défis à relever sont les suivants

1. Déterminer les schémas de connexion optimaux

2. Maintenir le contexte et les relations

3. Assurer une création efficace

4. Gérer la complexité informatique

Cette approche pourrait être particulièrement intéressante pour

– Les systèmes d’apprentissage tout au long de la vie

– Modèles à mémoire réduite

– Systèmes d’IA interprétables

Bien qu’elle soit théoriquement possible, sa mise en œuvre effective nécessiterait de relever plusieurs défis techniques.

Réponse : « défis techniques » relevés 😉 .

Illustration par DALL·E (+PJ)

Partager :

6 réponses à “Un réseau associatif aux propriétés émergentes de logique et d’apprentissage est-il réalisable ?

  1. Avatar de Padd
    Padd

    Une belle aventure à poursuivre 🙂

  2. Avatar de ThomBillabong
    ThomBillabong

    @Paul,
    Vous attendez quoi au juste ? Vous nous mettez l’eau à la bouche avec tous ces effets laudateurs et laudatifs !
    Si les défis sont relevés, voyons ce que ça donne, prenez des cobayes, je suis prêt comme tant d’autres à tester.

    Ca fait des années que vous nous faites languir, il serait temps de nous montrer autre chose que des vidéos dignes de « pong » 😉 et d’annoncer au mode que les modèles économes et basés sur les affects fonctionnent bien mieux que les LLM synonymes de gabegies énergivores monumentales. Et au-delà de l’énergie appelée, de montrer que les systèmes économes en calculs sont bien plus robustes que les danseuses sur patins de gigas. Vite !

  3. Avatar de Khanard
    Khanard

    L’exposé est dynamique, vivant .

    On peut suivre pas à le raisonnement , la palette d’idées possibles avec leurs avantages et leurs contre partie ; au fur et à mesure du développement on suspecte DeepSeek d’en avoir encore sous « le capot » mais peut être faudrait il encore aller le titiller dans son raisonnement .

    Bref on se croirait devant un cours de Paul Jorion . Belle démonstration et longue vie à SAM et Pribor.io

  4. Avatar de ilicitano
    ilicitano

    « Il y a peut-être un équilibre à trouver entre un réseau entièrement dynamique et un réseau statique. Peut-être une approche hybride où le réseau a une certaine capacité de croissance mais avec certaines contraintes. » DeepSeek

    Rappel de l’approche mixte :
    Avis de GPT 4o:

    https://www.pauljorion.com/blog/2024/11/22/xerfi-canal-le-talon-dachille-de-chatgpt-lapprentissage-dun-seul-coup-le-22-novembre-2024/comment-page-1/#comment-1040081

    L’évolution de l’IA peut prendre différentes approches, et chacune a ses propres avantages.
    Voici une analyse de trois méthodes :

    ### 1. Approche « Top-Down »:

    – **Apprentissage Massif Initial** :
    Cette méthode repose sur un apprentissage massif à partir d’un vaste corpus de données. L’IA est initialement entraînée sur un ensemble de données énorme, ce qui lui permet d’avoir une base de connaissances très large dès le départ.
    – **Avantages** :
    Grande base de connaissances, capacité à répondre à une vaste gamme de questions dès le début, robustesse face à diverses requêtes.
    – **Inconvénients** :
    Peut être moins réactive aux nouvelles informations, risque de biais intégrés dans les données initiales, mise à jour plus difficile.

    ### 2. Approche « Bottom-Up »:

    – **Interaction en Temps Réel** :
    Cette méthode permet à l’IA d’apprendre et de s’adapter en temps réel à partir des interactions continues avec les utilisateurs.
    L’IA s’améliore continuellement en intégrant les nouvelles informations et en ajustant ses réponses en fonction des retours en temps réel.
    – **Avantages** :
    Adaptabilité, capacité à intégrer des informations nouvelles et actuelles, apprentissage continu et personnalisé.
    – **Inconvénients** :
    Peut être moins efficace initialement, dépend beaucoup de la qualité et de la diversité des interactions, risque de surajustement aux biais actuels des utilisateurs.

    ### 3. Approche Mixte:

    – **Combinaison des Deux** :
    Un mix des approches « Top-Down » et « Bottom-Up » pourrait potentiellement offrir le meilleur des deux mondes.
    L’IA bénéficierait d’un apprentissage initial massif tout en ayant la capacité de s’adapter et d’apprendre continuellement en fonction des interactions en temps réel.
    – **Avantages** :
    Grande base de connaissances initiales, adaptabilité et réactivité aux nouvelles informations, amélioration continue, flexibilité.
    – **Inconvénients** :
    Complexité technique, nécessite une gestion et une intégration soigneuses des deux types de données et d’apprentissage.

    ### Conclusion
    – **Approche Mixte** : Il semble que la meilleure approche serait une combinaison des deux méthodes. Cela permettrait à l’IA de partir d’une base de connaissances solide tout en restant adaptable et capable d’intégrer de nouvelles informations en temps réel.

    En optant pour une approche mixte, l’IA pourrait offrir des réponses plus précises, pertinentes et à jour, tout en continuant de s’améliorer et de s’adapter en fonction des besoins et des interactions des utilisateurs.

    1. Avatar de ilicitano
      ilicitano

      Une autre question :

      L’idée d’un LLM ascendant à expansion dynamique et incrémentiel :

      La dynamique « temporelle, dans le temps » de cette expansion dynamique:

      Combien de temps pour avoir un optimum LLM , voire un non optimum mais une expansion dynamique continue ???

      * D’un côté une IA ayant reçu une massification de base de connaissances en quelques mois .

      * De l’autre un IA en formation « bottom-up » dont la temporalité est inconnue.

      ??????

  5. Avatar de Chabian
    Chabian

    Ma compréhension est limitée, mais j’ai noté ceci : « s’assurer que le réseau reste efficace pour l’inférence, maintenir la cohérence de la structure du réseau au fur et à mesure de sa croissance, et gérer la complexité de l’ajout de nouvelles connexions sans perturber les représentations existantes. »
    Or je notais ceci pour un ami : « hier, je prends de bonnes notes d’une conférence. Et en même temps je réfléchis que je prends toujours des notes (souvent assez seul dans ce cas), mais que je ne les lis pas, les mettant dans une farde égarée… Je pensais souvent : c’est pour renforcer ma mémoire visuelle par une mémoire scripturaire. Mais ici j’ai soudain compris : c’est pour me concentrer sur le fil du conférencier, mieux structurer son propos et m’y concentrer. Car je pense en même temps à ma distance critique, mes questions (alors je mets une croix dans la marge pour y revenir au temps des questions au conférencier, et en même temps lier ces croix en une pensée développée en moi). Et en même temps je développe une pensée… sur le genre de public, sur les défauts de l’organisation (je leur ai fait une critique à la sortie), et ma réflexion sur le film de la veille, etc. Donc j’ai bien besoin de développer un outil pour me concentrer : mes notes ! Je discutais avec mon ami sur le Trouble de l’attention.
    Je crois qu’il y a un lien entre ces deux choses, non ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion

Commentaires récents

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta