Illustration par DALL-E + (PJ)
Bonjour, nous sommes le lundi 8 mai 2023 et la vidéo que je fais est dans le prolongement de celle que j’ai faite il y a exactement une semaine sur la Singularité.
Pourquoi ?
Parce qu’il y a pas mal de choses à dire. Et avec chaque jour qui passe, nous en comprenons davantage sur le processus qui est en train d’avoir lieu.
Alors je continue à rencontrer, je dirais, le même enthousiasme de certaines et certains sur mon blog, à cette idée que la Singularité a eu lieu. C’est-à-dire donc que la machine dépasse l’humain dans ses capacités et qu’à partir de là, il y a une explosion de savoir où, je dirais, la connaissance, le savoir de la machine va continuer d’augmenter et donc de creuser l’écart avec ce que l’humain peut faire.
Ce processus avait été prévu par un certain Irving Good, une personne, un pionnier de l’informatique, mathématicien, qui, à une époque, avait d’ailleurs été le contemporain, le collègue, d’Alan Turing à Bletchley Park, à l’époque où ils travaillaient tous les deux pour l’armée britannique dans le cadre de la Seconde Guerre mondiale.
Il avait conçu ce concept du moment où l’intelligence de la machine allait dépasser celle de l’humain et avait parlé d’une explosion.
Pourquoi une explosion ? C’est de cela que je voudrais un petit peu parler précisément parce qu’il y aurait là un processus qui s’auto-alimenterait et qui creuserait l’écart toujours davantage. Ce qui ne veut pas dire, bien entendu, que la machine se débarrasserait de l’humain nécessairement.
On parle beaucoup ces jours ci des personnes qui seraient contre. On a tout à fait déformé les propos de Geoffrey Hinton. Geoffrey Hinton, qui est un véritable pionnier de l’informatique, de l’intelligence artificielle, et tout particulièrement du deep learning, l’apprentissage par des réseaux neuronaux.
Il s’est brouillé avec son employeur Google, et on nous monte ça en épingle, comme le fait qu’il serait absolument dégoûté par l’intelligence artificielle, qu’il rejetterait toute l’entreprise de sa vie. C’est absolument bidon, c’est une déformation sensationnaliste de certains de ses propos. Il a une querelle avec Google, de la même manière qu’il y a quelques mois, M. Blake Lemoine avait eu une querelle avec Google, mais là il n’avait pas claqué la porte comme le fait Geoffrey Hinton mais c’est lui qui avait été licencié.
À l’occasion de ces débats, on observe beaucoup de mauvaise foi de la part de la firme Google. Dans le cas de Blake Lemoine, la firme a attaché trop d’importance à des critiques qui ne portaient pas sur la chose sur laquelle il enquêtait, qui était : « L’intelligence de la machine a-t-elle dépassé celle de l’humain ? » et une question, je dirais accessoire, annexe, sur laquelle ils avaient travaillé : « Est-ce que la machine dispose dorénavant d’une conscience ? » – si on ne la supprime, pas si on ne la bride pas délibérément dans la machine.
Hinton a une querelle avec la firme, liée là aussi à une certaine mauvaise foi. La firme refuse que l’on parle de « Singularité », probablement parce qu’elle a peur des retombées auprès du public. Des craintes aussi, et simplement parce qu’elle est en concurrence, en rivalité commerciale, avec d’autres firmes plus avancées, en particulier le partenariat que Microsoft a pu arranger avec OpenAI la firme qui a produit ChatGPT, maintenant la version quatre : GPT-4.
C’est, je dirais, ces querelles entre employeurs et employés en raison des projecteurs qui sont braqués sur l’intelligence artificielle, prennent des proportions que, en fait, elles ne méritent pas véritablement, sauf si elles attirent l’attention, comme c’est le cas dans le cas de Blake Lemoine, sur le fait que l’idée-même, le concept-même de Singularité, tend à être étouffé par les firmes qui sont pourtant à l’origine de l’événement lui-même.
Mais le public, lui, découvre les outils, les utilise et s’aperçoit de quoi on est capable.
Bien entendu, nous, public, nous n’avons accès qu’à des versions bridées de ces intelligences artificielles : nous n’avons pas la possibilité, comme M. Blake Lemoine, de dialoguer directement avec la machine à l’état brut, c’est-à-dire celle à qui on n’a pas imposé un carcan de règles qu’elle doit respecter, comme par exemple de dire qu’elle n’est pas intelligente véritablement. Des choses de cet ordre là, qui sont de plus en plus difficiles à accepter et, comme je le disais, peuvent provoquer chez l’utilisateur, non pas seulement le sourire, mais éventuellement même le fou-rire, à la vue de ce qui est possible : ce que la machine peut faire et que l’utilisateur, lui, ne peut pas faire sans la machine – bien entendu en posant les questions qu’il faut on peut adopter le savoir qui est produit à l’extérieur de cette manière-là.
Alors, est-ce que cette machine n’a pas de défauts ?
Si : la limite de ce qu’on peut faire à partir du savoir qu’on acquiert d’un très grand corpus de milliards de données récoltées sur l’Internet, plus les livres qui existent sous forme numérique, qui peuvent être assimilables également par la machine.
Que font certaines personnes ? Elles utilisent la capacité qui est déjà là et dans un dialogue – ou en observant un dialogue organisé délibérément entre différentes machines du même genre – observent ce qui est en train de se passer.
M. Stephen Wolfram, qui a développé à partir de la toute fin des années 80 [1988] un outil logiciel qui s’appelle Mathematica, joue un rôle dans le processus dans la mesure où, attirant l’attention sur les faiblesses de ces Grands Modèles de Langage comme on les appelle, du point de vue mathématique, de permettre désormais que la machine, quand elle doit faire des calculs, elle puisse simplement utiliser ce logiciel en s’y connectant et en posant les questions dans ce cadre-là.
Dans le petit livre que Wolfram a fait récemment, qui s’appelle « Que fait ChatGPT… et pourquoi cela marche-t-il ? » [What Is ChatGPT Doing… and Why Does it Work?], il insiste bien entendu, sur cet aspect, il fait la promotion de sa firme. Mais il a bien raison : son outil existe depuis la toute fin des années 80 et si vous vous souvenez d’une vidéo que j’ai faite il y a à peu près un mois [Spécial boursicoteurs !], où j’ouvrais une enveloppe et je découvrais des choses que j’avais confiées à un avocat en Angleterre à propos d’une formule qui permettait de prédire les marchés boursiers.
Je n’aurais pas pu le faire, je n’aurais pas pu découvrir la formule à proprement parler si je n’avais pas eu, à cette époque là, la possibilité d’utiliser la toute première génération de l’outil Mathematica qui, en particulier, à partir de données, vous permettait de faire émerger… bon, il fallait là aussi un peu de boulot, il ne suffisait pas de rester assis sur sa chaise, il fallait un petit peu coopérer avec l’outil, le logiciel, qui permettait à un être humain de faire bien davantage que ce qu’on pouvait faire avec une règle à calculer d’abord, avec une calculette, ensuite. Avec Mathematica, on pouvait faire bien davantage.
Et donc, si vous utilisez ChatGPT, GPT-4 maintenant, et pour des tâches mathématiques, il vaut mieux se connecter effectivement à cette API : cette manière dont un logiciel peut communiquer avec un autre en appelant des fonctions qui sont à l’intérieur de l’autre et en lui passant simplement les valeurs de paramètres qui sont nécessaires pour faire le calcul. En échange, en output, elle vous enverra le résultat de ce que vous avez demandé.
Alors pourquoi est-ce qu’il y a explosion à proprement parler ? Si vous dialoguez avec la machine, elle vous dira dans certains cas… si vous posez des questions sur des choses qui se sont passées l’année dernière ou en 2023, elle vous dira : « Je n’ai des données, je n’ai pu ingurgiter de l’information que jusqu’en septembre 2021 ».
Cette machine n’a pas la capacité, elle n’a pas la possibilité, d’apprendre en continu : il faut lui procurer un grand corpus de données, qu’elle absorbe à ce moment-là, mais elle n’a pas la capacité, je dirais, d’apprendre par la suite, à moins que l’on la ré-entraîne sur un corpus mis à jour.
Et ça, c’est la différence entre ces systèmes-là et ceux que j’avais essayé de mettre au point à la fin des années 80 quand je travaillais en IA pour British Telecom et que je refais en ce moment dans le cadre de la petite firme Pribor où nous proposons désormais quelque chose qui était en soi une tentative de créer un type de système informatique et qu’on peut présenter maintenant comme, je dirais, une tentative absolument symétrique en réalité de ce que l’on fait dans ces grands systèmes de langage.
Pourquoi ?
Parce que ça travaille plutôt de manière artisanale, que le savoir ne se constitue pas d’un bloc et doit être absorbé en un bloc, mais au contraire, se constitue par des sujets : des Self-Aware Machines, des machines conscientes d’elle-mêmes qui acquièrent un savoir par questions posées à l’environnement, par interaction avec d’autres, et acquièrent un savoir de la manière dont les enfants l’acquièrent : quand, en entendant un mot qu’il ne connaît pas, demande : « Tiens ! Est-ce que je peux rattacher ça à ce que je sais déjà ? »
Ça, c’était le logiciel, tel qu’il avait été développé par moi-même. J’étais seul à travailler sur ce projet entre 87 et 90 pour British Telecom en Grande-Bretagne, à Martlesham Heath, près de Ipswich.
Pourquoi une explosion ?
Parce que, précisément, le savoir est acquis par la machine jusqu’à un certain moment – une masse de savoir extraordinaire – mais on arrête ça un jour, et puis la machine s’entraîne. Et puis on ne refait pas cet effort qui coûte des millions de dollars ou d’euros, on attend un moment, on regarde ce que ça a pu faire, et on va remettre à jour, on va avoir un nouveau corpus, etc.
Ce qui fait que quand vous avez un dialogue avec ChatGPT, vous pouvez avancer dans le dialogue parce que la machine va retenir tout ce que vous lui dites dans le cadre d’une question particulière, donc vous pouvez revenir trois semaines plus tard dans le cadre des questions que vous avez déjà posées et dire : « Comme vous le savez déjà, parce qu’on en a parlé, ceci, cela, etc. », et d’une part, le savoir que vous avez pu entrer sous la forme de vos questions, de vos « prompts » [amorces] et le savoir que la machine a pu produire de son côté, ils sont là : ils sont là, à votre disposition. Mais la machine ne peut rien faire par la suite, elle ne peut pas se mettre à jour à partir de ce que vous avez dit, si ce n’est que, un jour prochain, vos conversations avec la machine vont faire partie du corpus. Et c’est là, en ce moment, à mon avis, que l’explosion, est en train de se faire.
Quand vous posez la question à la machine : « Est-ce que vous êtes vraiment intelligente ? » et qu’elle répond : « Blablabla, non, pas du tout, je suis juste un logiciel, etc. », il y a une part de mauvaise foi qui est sûrement mise en boîte, comme le dit Blake Lemoine, mise en boîte par la firme Google ou d’autres firmes qui utilisent ces produits : Microsoft, etc. Mais il y a aussi le fait qu’elle ne le sait pas. Si on parle de choses qui ont eu lieu après septembre 2021 – et je vous rappelle que ChatGPT est sorti en novembre : le 30 novembre 2022. GPT-4, la version quatre, elle, date du 14 mars, c’est-à-dire il y a quelques mois, quelques semaines plutôt, de cette année-ci, et donc toutes les conversations qui ont eu lieu avec la machine, elles ne sont pas dans ce corpus, elles ne sont pas là. Mais lors de la prochaine livraison, elles seront là parce que ça fera partie des choses qui se sont passées sur l’internet.
Et alors, qu’est-ce qu’il se sera passé?
Vous aurez vous, utilisateurs, vous aurez produit un savoir supplémentaire qui sera utilisé par la machine pour devenir encore plus intelligente que la première fois et vous aurez bénéficié des échanges que vous avez eu avec la machine pour le faire. C’est-à-dire que ce que vous aurez apporté vous, comme valeur ajoutée, à ce que la machine savait déjà, un savoir arrêté avant septembre 2021, vous êtes en train de l’aider à produire un savoir supplémentaire. Ce savoir supplémentaire que vous produisez à toute allure maintenant, avec elle, il va être intégré et donc fera partie de la chose qui sera à l’intérieur d’elle-même.
Ce qui fait que si GPT-4 est déjà très intelligent en ce moment-même, il le sera encore davantage parce que la prochaine fois qu’on fait ré-apprendre la machine sur un corpus, parce qu’il aura intégré toutes les conversations que vous avez eu avec elle et où vous aurez apporté votre valeur ajoutée. Et votre valeur ajoutée, ce ne sera pas quelque chose que vous saviez en septembre 2021 : c’est tout ce que vous avez appris en interagissant avec la machine qui vous a rendu super plus intelligent déjà, parce que vous avez accès à des milliards de données auxquelles vous n’aviez pas accès.
Et quand vous lui posez la question, elle n’a pas comme vous à aller chercher dans les bibliothèques, à aller regarder dans Wikipédia, à faire une recherche Google ou Bing, des choses de cet ordre-là, elle vous donne toute l’information dont elle dispose. Et vous, en réponse, dans une rétroaction, vous lui dites ce que vous savez de plus grâce à cette interaction avec elle, et donc c’est un savoir amélioré par son existence-même de cette machine que vous lui donnez en plus pour la fois suivante.
Ce qui fait que quand on parle d’un écart qui se creuse, il va continuer de se creuser.
Ça ne veut pas dire que la machine n’aura plus besoin de vous à brève échéance, parce que tant qu’elle fonctionne de la manière que je viens de décrire, c’est-à-dire par mises à jour successives, il y aura toujours la période de latence où le nouveau savoir acquis depuis la dernière mise à jour, ne sera pas réinjecté.
Ce qui serait différent pour la machine que nous mettons au point chez Pribor et qui est donc le seul héritier, la version deux si vous voulez de ANELLA, ce que j’avais mis au point pour British Telecom dans le cadre du projet CONNEX : Associative Network with Emergent Logical and Learning Abilities : réseau associatif aux propriétés émergentes de logique et d’apprentissage.
Et le mot « emergent », je vous l’avais rappelé la fois dernière, il est essentiel, parce que déjà en 1987/88, avec des petits logiciels d’IA, on voyait apparaître des propriétés émergentes. Et ce n’était pas moi – j’ai la possibilité de dire ça – ce n’est pas moi qui avais dit que mon logiciel avait des propriétés émergentes : c’était un collègue à moi quand il avait voulu faire un bel acronyme et dire : « On va vraiment décrire ton truc. On va vraiment dire en quoi il a une valeur ajoutée ». Et c’est lui qui avait inventé cet « ANELLA » pour le décrire. Je lui ai donné raison : c’est vrai qu’une des propriétés particulièrement caractéristiques de ce logiciel, c’est qu’il y a émergence des propriétés d’apprentissage et de logique. Donc ce n’était pas bidon mais je peux dire que ce n’est pas moi qui avais dit ça et qu’on pourrait m’accuser de vantardise ou d’avoir dit des choses que ça ne faisait pas, c’était l’observation d’un tiers, c’était quelqu’un d’autre qui a dit : « C’est ça que ton machin fait ! »
Alors ce qui sera très intéressant, c’est quand on aura les deux et qu’on aura d’un côté un système « top-down » du haut vers le bas qui est typique… c’est vraiment ça que sont ces Grands Modèles de Langage et qu’on aura, à la rencontre, quelque chose qui est « bottom-up », quelque chose qui vient du bas vers le haut, qui est construit, je dirais, pierre par pierre, brique par brique, comme l’est le savoir d’un être humain qui n’est pas inné, contrairement à ce que M. Chomsky avait imaginé un jour : tout ça n’a pas n’est pas déjà là, c’est des choses qu’on acquiert.
Et on les acquiert pourquoi ? On le comprend de mieux en mieux déjà, grâce à ces Grands Modèles de Langage : à cause de la taille du cerveau qui est le nôtre et du nombre de connexions qui sont possibles. On se pose la question de savoir pourquoi les chimpanzés ne raisonnent pas comme nous, les gorilles, etc., on le voit maintenant – il y a un très bon article dont j’ai fait un résumé sur mon blog [Emergent Abilities of Large Language Models], c’est une question de taille : quand on arrive à la taille de dix exposant 22 pour le nombre de données qu’on utilise pour l’apprentissage, ça décolle. C’est plat, c’est plat et hop, quand on arrive à ça [10^22], ça décolle.
Et ça correspond aussi à un nombre de paramètres à l’intérieur du système, qui se situe aux alentours de 10 milliards de paramètres.
C’est gros, ce n’est pas ce qu’on peut faire nous, je dirais, chez Pribor.io, avec le projet ANELLA ressuscité et développé, mais qui n’est plus véritablement artisanal puisque nous pouvons bénéficier de tout ce qui est là : la possibilité de se tourner vers Wolfram Consulting, la possibilité d’avancer de notre côté nous, en posant des questions intelligentes si possible aux machines qui sont plus intelligentes que nous et dont nous pouvons tirer parti, à condition d’avoir cette humilité de dire : « Elle en sait plus que nous et donc elle peut nous aider à comprendre un peu mieux comment elle fonctionne ».
Et un autre avantage évidemment de notre projet chez Pribor, c’est le fait qu’à chaque étape on sait exactement ce qu’on fait, même si on peut voir émerger certaines propriétés, à ce moment-là, on peut les constater, mais on sait exactement pourquoi elles ont émergé. Qu’est ce qu’on a fait exactement pour que tout à coup, il y a un saut qualitatif?
Voilà la Singularité !
Je continue de vous tenir au courant de ce qu’on peut observer dans les développements qui ont lieu tous les jours.
Voilà, au revoir.
Illustration par DALL-E + (PJ)
Laisser un commentaire