« Et d’une certaine manière, moi je n’ai pas vraiment regretté de quitter l’intelligence artificielle à ce moment-là, au moment où je l’ai quittée, parce que je m’étais engagé dans une voie absolument différente de tout le monde. On verra si un jour on appelle ça « novateur », mais à ce moment-là, bon, j’ai fait la chose qui surprenait tout le monde. Les gens qui travaillaient autour de moi, ils avalaient des gros traités de logique formelle, et moi j’ai dit : « Eh bien, on va prendre Freud et Lacan et on va faire marcher une machine à partir de ça. » Voilà ! Alors, c’était l’époque où dans le domaine des scientifiques – je ne parle pas de la société dans son ensemble – la psychanalyse, ça passait pour un truc de charlatans. Ça va changer, bien entendu, on va se rendre compte que la psychologie dont on a besoin dans ce domaine de l’intelligence artificielle, et ça, je l’ai déjà dit dans mon bouquin que j’ai écrit en 89, « Principes des systèmes intelligents », le type de psychologie dont on a besoin pour rendre des machines intelligentes, c’est le type de compréhension qui vient de Freud, de Lacan, de Mélanie Klein, enfin un certain nombre de personnes qui ont réfléchi à ces trucs-là. »
Paul Jorion
Langage, langage-machine, pensée, apprentissage et personnalité
« Machine learning », machines auto-apprenantes
La séance inaugurale de la chaire annuelle du Collège de France : informatique et sciences numériques a eu lieu au début du mois de février 2016. Menée par Yann Lecun, elle portait sur l’intelligence artificielle, et plus précisément sur l’apprentissage profond, encore appelé « deep learning » [1]. Il se passe donc quelque chose du côté des machines qui trouve à se faire entendre d’une institution étatique comme pour en valider, légitimer l’importance enfin prise en considération ; une chose qui par ailleurs tend à venir effacer une limite jusque-là tenue pour inattaquable et qui séparait le sujet humain de la machine par rapport à la possibilité de l’auto-organisation, et, pour en simuler de plus en plus parfaitement et finement les effets [2] à travers l’activité noétique de l’apprentissage. Ainsi, une dernière étape serait en passe d’être atteinte [3], et une autre vieille séparation tomberait plus ou moins totalement (qui jouait l’auto-organisation évolutive du vivant contre la fixité des programmes des machines car jusqu’à présent celles-ci n’étaient pas capables d’évoluer et d’apprendre par elles-mêmes, il fallait les superviser), effet dont il est difficile de prévoir les conséquences sur les sociétés (en terme métaphysique, social, affectif, catégorial, économique, technique). Mais cela est déjà réfléchi, analysé, discuté dans les divers endroits du monde et il se pourrait que chaque société ne réagisse pas de la même façon au défi lancé par ces machines et à celui de leur intégration au corps social, cela en fonction de la singularité des régimes axiomatiques propres à chacune.
Informatique et effet d’intelligence
Au moment où nous écrivons ce papier nous n’avons pas écouté les conférences dont nous faisons mention plus haut, mais nous voudrions partir de là, de cet événement institutionnel pour parler d’un livre qui fut écrit par
Paul Jorion (par ailleurs anthropologue et économiste) en 1989 et qui porte le titre :
« Principes des systèmes intelligents »[4], parce que celui-ci a opéré sur nous comme une véritable secousse. Il nous semble avoir abordé – parmi les tous premiers – l’intelligence artificielle d’une autre façon, articulant plusieurs éléments (dont certains mêmes peuvent apparaître étrangers à la discipline informatique) mais qui concourent à construire ce qu’il appelle : l’effet d’intelligence.
« Effet d’intelligence » [5], car Jorion ne se demande pas ce qu’est l’intelligence, il ne cherche pas à en fournir une définition achevée ni à en dégager une essentialité, mais plutôt à repérer ce qui dans le réel est tenu par les humains pour de l’intelligence, ce qui fait impression d’intelligence. C’est donc du point de vue du vécu humain, du point de vue phénoménal et immanent pourrait-on dire qu’il aborde le problème. En procédant ainsi, il se demande quelles conditions doivent être remplies par les systèmes machines inorganiques dans leurs opérations internes pour que les humains puissent dire une fois placés devant : – cet ordinateur est intelligent, il pense, son intelligence est semblable à la mienne. Et nous verrons que dans les principes qu’il a dégagés pour parvenir à cet effet de similarité, certains sont devenus par la suite, les principes fondamentaux des branches filles des systèmes intelligents « princeps », et dont toutes ont la particularité de s’éloigner – à des degrés divers – des systèmes experts, pour être des systèmes auto-apprenants ou encore évolutionnaires.
Nous reviendrons sur ces systèmes un peu plus tard ; suivons pour le moment les traces de Paul Jorion qui vont nous mener – par la problématique du langage et de sa conceptualisation à travers la psychanalyse entre autre, c’est cela qui nous parut étrange et qui nous intéressa en première instance – vers les systèmes apprenants que l’on appelle aujourd’hui les réseaux de neurones ainsi que la méthode : programme génétique [6].
On pense parce que l’on parle ?
Dans son introduction, Paul Jorion s’interroge sur le langage, sa place par rapport à la pensée et il se demande, en terme de chronologie – si l’on pense parce que l’on parle, ou si l’on parle parce que l’on pense ? Et face à cette alternative, il choisira de poser et questionner l’antériorité des mots, de poser que la pensée émerge à partir des mots et il formule sa problématique ainsi : « Autrement dit, et si la pensée résultait de l’auto-organisation de mots ? » Ce qui sera l’hypothèse de son livre. Une hypothèse forte.
Hypothèse qui lui servira pour développer un autre type de modélisation du langage dans les systèmes intelligents et sur lesquels il va d’ailleurs lui-même travailler [7]. Un autre langage donc, et qui « serait comme la production d’un discours cohérent résultant de l’exercice dynamique de contraintes sur un espace de mots. ». Il faut alors trouver comment structurer les machines pour qu’elles puissent suivre une telle procédure et pour qu’elles puissent se mettre en mouvement dans un tel espace.
Lorsqu’un humain s’adresse à une machine et lui pose une question, c’est pour obtenir une réponse, une information qu’il ne possède pas, mais cette réponse dit Paul Jorion, peut être de deux types. Soit elle ne surprend pas et répond simplement à la question et à l’attente du questionneur. Soit elle surprend et donne l’impression que la machine a saisi plus que l’explicite de l’énoncé, et « qu’elle confronte l’humain au débordement habituel du désir par rapport à la demande ».
Cela pour montrer que si nous voulons qu’une machine donne d’elle-même une impression autre que machinique, il faut qu’on la structure selon certaines caractéristiques dans lesquelles, par ailleurs, pointent étrangement des notions qu’on retrouve dans le champ de la psychanalyse. Mais nous précisons que ce n’est pas le cas avec toutes les caractéristiques. Nous allons les énumérer succinctement.
Première caractéristique : obligation pour un système intelligent de disposer d’un savoir (une base de données), puis d’être à même de transmettre son savoir (interface en langue naturelle orientée sortie), puis d’être à même d’acquérir un savoir (extraire une connaissance de ce que l’utilisateur ou l’environnement lui transmettent, grâce à un parseur et un module d’apprentissage), puis savoir interroger l’utilisateur, puis ne pas imposer son savoir mais le négocier (arriver à déterminer le degré d’adhésion de l’interlocuteur), et enfin avoir une personnalité propre.
Certaines caractéristiques, on l’observe, semblent malaisées à attribuer à une machine et participent de l’effet que Paul Jorion appelle : intention, c’est-à-dire que le système a pris une initiative. Il n’a pas eu un comportement « machinique » habituel, et par ailleurs il a proposé l’information la plus pertinente ici, c’est-à-dire la plus fine par rapport au contexte, il s’éloigne du stéréotype. La dernière caractéristique est celle qui est de plus haut niveau, c’est elle qui donnerait cette impression qu’une « personne », qu’une pensée et une intelligence comme humaine s’y trouvent[8]. La machine aurait donc une personnalité et serait capable d’auto-organisation.
Mais comment construire une telle machine ?
Des systèmes symboliques aux systèmes sémantiques : un pas vers l’associationnisme
Tout d’abord, il faut préciser que les systèmes intelligents qui en seraient capables, ne sont pas ceux que l’on appelle les systèmes experts (dit encore symboliques, ce que sont nos ordinateurs actuels), mais d’après Jorion, des systèmes sémantiques devenus mnésiques. Un système mnésique repose sur plusieurs postulats en ce qui concerne à la fois le langage, la mémoire et les affects. Nous allons donner des précisions quant à chacun de ses aspects au cours de l’article.
Concentrons-nous d’abord sur le langage
Prenons un discours. Soit nous pouvons l’envisager du côté de la signification [9], soit nous pouvons l’envisager du côté du signifiant et plus encore comme un parcours séquentiel à l’intérieur d’un espace de signifiants (indépendamment de leur signification), c’est-à-dire pour reprendre les mots de Paul Jorion, que le langage serait « comme un chemin tracé sur un lexique compris comme la liste de tous les mots d’une langue ». Mais alors une question se pose, si ce n’est pas la signification des mots qui importe pour leur association, et si ce n’est pas ce à quoi ils renverraient du monde et des choses qui importe, selon quelles règles associatives pouvons-nous alors les articuler en tenant compte par ailleurs du plan de linéarité temporelle qu’est la parole, la phrase ou l’énoncé ?
Plusieurs options se présentent. La méthode dite du singe : « qui explore les tirages d’une vaste combinatoire ». La méthode dite des règles : « qui se donne a priori un ensemble tout fait de contraintes auxquelles le parcours sera soumis. Cette méthode nous la connaissons bien puisque c’est là que nous retrouvons les différentes contraintes : d’ordre syntaxique (l’ensemble des mots de la langue sont partagés en partie du discours), d’ordre sémantique qui correspond à l’organisation interne de la langue, ex le verbe « penser » exige comme sujet un substantif dénotant un être animé. D’ordre pragmatique, c’est la dimension proprement dialectique qui pose que d’une phrase ne peut pas suivre une autre phrase dont le sens est sans rapport ou qui la contredit. Cela correspond au sujet des topiques de l’organon d’Aristote.
Puis pour finir les contraintes d’ordre logique. Mais comme le dit Jorion : « cette méthode demande qu’avant même de pouvoir générer une phrase, il aura fallu construire un système immense en termes de règles et de métarègles stockées et qui exige pour un simple fonctionnement un temps de traitement inacceptable. »
Le cerveau humain ne fonctionne pas comme cela. La production d’une phrase pour un être humain ne prend que quelques dixièmes de seconde. Il faut donc envisager la dernière méthode, celle du : coup par coup, et c’est là que nous retrouverons une intuition de la psychanalyse (celle de l’association libre) par rapport au langage, et aux signifiants. Ici, nul n’est besoin de définir des règles a priori, il faut seulement un principe qui permette de déterminer une fois que l’on a posé un mot, lequel pourra être le suivant. Et « on peut imaginer que soient en place de manière constante des chenaux et des chréodes, des passages privilégiés pour se rendre d’un mot à un autre ». Ici, il faut donc raisonner en terme de trace, comme si pour aller d’un endroit à un autre, d’un mot à un autre, nous empruntions toujours le même petit chemin et qu’à force la végétation se soit arasée, le passage d’un mot à un autre renforcé, et pour la suite, en découlerait une facilité d’association [10] ; Paul Jorion pense que le cheminement de la pensée s’effectue de la même façon, à savoir qu’une fois posé le point de départ, en l’occurrence, un mot, et bien le chemin qui se déploie à sa suite est en quelque sorte indiqué et c’est lui que nous emprunterions plutôt que de couper à travers la forêt, c’est-à-dire plutôt que de choisir un nouveau mot ( la poésie, elle essaie de sortir de ces chenaux). Mais ajoutons tout de suite, que ce chemin n’est pas de toute éternité déjà présent, qu’il est le résultat d’une vie singulière, d’une construction, d’un apprentissage et d’une mémoire qui se constitue tout au long d’une vie. Pour le dire autrement nous ne naissons pas avec déjà conçus tous ces chemins, mais seulement une structure qui en permet la progressive instauration, cette structure étant le réseau de nos neurones et de nos synapses (nous y reviendrons un peu plus tard). Et déjà nous pouvons saisir que le lien de concaténation des signifiants, n’est pas le résultat d’une application de règles a priori ( comme pourrait le laisser supposer la grammaire que l’on apprend à l’école) mais d’un frayage plus ou moins souvent réalisé entre deux signifiants au cours d’une vie (selon les paramètres de l’apprentissage qui en font la singularité individuelle), et par là nous voyons le lien direct qui s’effectue, entre le fait de passer d’un signifiant à un autre, et la mémoire, car le frayage dont nous avons parlé relève de la mémoire.
Ressaisissons maintenant rapidement les choses pour pouvoir poursuivre
La première hypothèse suivie fut :
– Des signifiants émerge la pensée et non l’inverse [11]
La deuxième hypothèse fut :
– Ce qui détermine l’intensité des liens entre les différents signifiants (on abandonne le plan de la signification) lorsqu’ils font discours, c’est-à-dire le passage de l’un à l’autre dans un énoncé, c’est une association, non pas axiomatique et a priori, pas non plus une combinatoire aléatoire, mais le fait de créer une facilité de passage, un renforcement, une habitude de liens, et en cela la mémoire joue un rôle primordial.
Associationnisme
A partir de là, nous pouvons envisager les choses sous l’angle de l’associationnisme pour qui, « il n’est que simple gradation de la remémoration à la génération d’un discours ordinaire, en passant par le raisonnement ». Nous pouvons penser ici à un terme posé par Freud au moment où il s’est départi de l’hypnose au profit justement de : « l’association libre », dont, et nous citons Paul Jorion, « Loriginalité par rapport à la doctrine d’un langage de la pensée, c’est de s’être rendu compte que ce qui peut être étudié avec toute la rigueur scientifique, ce n’est pas l’association des idées, mais l’association des images et surtout dans leur supposition matérielle ».
Nous insistons, c’est important, car ce dont on se préoccupe alors ce n’est plus de l’association des signifiés mais de celle des signifiants qui font bascule vers d’autres signifiants. Et par ailleurs, il faut encore ajouter que, si nous sommes bien inscrits avec cette théorie à l’intérieur d’un espace de mots, il n’est pas possible comme le dit Paul Jorion : « de ne pas s’occuper d’un élément qui joue un rôle essentiel dans les enchaînements associatifs, à savoir la production d’images, car c’est ce qui se passe chez l’être humain. En effet, certains mots ont une capacité à évoquer une image, « ex : quand nous entendons « pommes », nous hallucinons l’image d’une ou plusieurs pommes ».
Suivant cela il y a donc plusieurs modalités d’enchaînements possibles : De mot à mot, de mot à image, d’image à mot, d’image à image. Et cela encore sous deux régimes, sous le régime de l’inconscient (intuitif et automatique) et sous le régime de la conscience. Paul Jorion déclinera encore les différents types d’enchaînements associatifs qui peuvent être : Matériels (acoustiques, graphiques), sémantiques (synonymie, inclusion, connexion simple, traduction, etc.), mais ajoute-t-il : « il est peut-être mieux de se passer de ce mécanisme pour la modélisation d’un système intelligent».Est-ce à dire que nous irions trop loin dans le mimétisme, parce que ce serait trop compliqué à traduire pour l’instant dans une structure machine ou… nous ne savons pas mais Paul Jorion de conclure provisoirement que « pour les langues qui nous sont familières (il montre ailleurs dans le livre comment pour le langage chinois par exemple cela fonctionne autrement), l’enchaînement associatif -qui est requis ici en tant que modèle pour les systèmes intelligents, reflète des relations d’inclusions, d’attribution et de synonymie exprimées à l’aide de la copule « être », et de « connexion simple » exprimée à l’aide de la copule « avoir », cela même qu’il va falloir essayer d’implémenter dans la machine.
L’associationnisme dont il a été question ici, et qui peut servir de modèle pour construire un nouveau type de système intelligent, pour autant ne traite que d’un aspect du problème car il faut encore penser le milieu dans lequel il peut se déployer, et nous passons à la problématique de la structure, à celle de l’espace, à celle de la topologie qui devra être traduite en termes d’objets mathématiques.
Mais ce milieu, quel est-il ?
Structure évolutive (P-dual d’un graphe).
D’abord il doit être réseau mnésique [12], c’est-à-dire qu’il doit stocker des signifiants de la manière la plus économique, mais il faut ajouter qu’à son début, puisque nous essayons de construire des machines qui imitent l’intelligence humaine, il faut aussi et paradoxalement que ce réseau n’existe pas « trop », qu’il ne soit pas déjà formé/achevé et ce, comme pour un tout petit enfant où ce qui est mis en mémoire est encore assez réduit. Et la question se pose de l’inscription d’une première trace mnésique qui agira comme germe, car le réseau va évoluer, apprendre et se modifier, sinon il serait comme un système expert, comme nos ordinateurs, ce dont nous essayons précisément de nous éloigner. Et c’est à partir du chenal, que l’on va poser des exigences pour parvenir à cet effet.
Le chenal (passage d’un signifiant à l’autre) ne doit plus s’effectuer selon la séquence « sommet/arc/sommet », mais « arc/sommet/ arc ». Ce qui fait du réseau sémantique, un réseau mnésique [13]. Cette transformation est rendue possible grâce à un nouvel objet mathématique le « P-dual » d’un graphe. Nous ne maîtrisons pas cet objet et renvoyons donc le lecteur à d’autres travaux s’il souhaite approfondir cet aspect.
Mais en terme opératoire cela permet deux choses très importantes, tout d’abord la délocalisation des signifiants, on ne pense plus leur situation à tel endroit, mais plutôt leur situation entre tel et tel endroit. Ajoutons tout de même que le phénomène de délocalisation ne peut être complet, c’est-à-dire qu’aucune représentation ne peut être entièrement délocalisée. Et deuxièmement la distribution, qui permet au signifiant de s’inscrire dans une multiplicité d’enchaînements associatifs, inscription qui n’aura pas pour autant dans chaque cas le même poids. Paul Jorion prend cet exemple : « le signifiant ‘’pomme ’’ » est pondéré différemment s’il apparaît entre ‘’prune’’ et ‘’poire’’ et s’il apparaît entre ‘’Eve’’ et ‘’Adam’’. La charge affective peut être différente, et si on traduit cela en terme d’adhésion, cela veut dire que l’insertion d’un signifiant dans telle ou telle chaîne associative ne reçoit pas la même intensité, il y a des enchaînements associatifs qu’on accepte de remettre en question et d’autres pour lesquels c’est beaucoup plus difficile. Paul Jorion qualifie les premiers de « savoir », en ce qui les concerne on peut accepter sans trop se faire violence de les modifier, par exemple c’est ce que fait la science quotidiennement lorsqu’elle émet des énoncés de vérité, qu’elle modifie par la suite, lorsque la théorie précédente se trouve infirmée ou qu’elle est devenue moins efficace en terme de puissance de généralisation face à la nouvelle. En revanche, il y a des enchaînements associatifs, et on l’observe bien chez l’être humain, qui coûtent énormément lorsqu’on doit les remettre en cause, parfois c’est même impossible ; Paul Jorion appelle ces enchaînements des « croyances » et nous citons : « la croyance au contraire [du savoir] est d’inscription centrale et seulement modifiable de manière « catastrophique » ; par la conversion, qu’il faut considérer alors comme modification des connexions existant entre les éléments qui sont chronologiquement les premiers. La conversion s’observe bien entendu chez les êtres humains, généralement au prix d’une consommation énergétique tout à fait considérable, c’est ce que Freud appelle la « Nachträglichkeit », l’après-coup de telles restructurations.
Ainsi, si nous voulons construire une intelligence artificielle qui imite en ses effets l’intelligence humaine, c’est tout cela qu’il faut prendre en considération et qu’il faut essayer de modéliser dans la structure machine. Un réseau mnésique, ainsi que l’appelle Paul Jorion, doit posséder en sus des systèmes informatiques dits « experts », deux traits : la capacité d’apprentissage et la capacité à négocier avec l’utilisateur en fonction – ce dont nous venons de parler- des degrés d’adhésion que celui-ci prête à ses énoncés. Il faut donc que la machine soit capable en quelque sorte de « percevoir » la charge affective, et le degré d’enracinement d’un énoncé dans le réseau mnésique de son interlocuteur, ce n’est que se faisant qu’elle pourra donner l’impression à l’humain qu’une semblable intelligence (même si machinique) se tient face à lui, ou encore qu’une personne se tient face à lui. Nous avions posé au tout début de l’article, qu’il fallait que le système intelligent ait « comme » une personnalité. Il faut donc aussi lui implémenter une modélisation de la psyché humaine. C’est pourquoi la psychologie et la psychanalyse doivent rencontrer l’informatique. Et c’est ce que tente Paul Jorion.
Maintenant retraçons le parcours ici effectué avant d’ouvrir vers ce que nous annoncions, à savoir les réseaux de neurones.
Effet de personnalité : structure ouverte et frayage
La nouvelle intelligence artificielle doit faire effet d’intelligence, de personnalité. Pour cela, elle doit imiter le fait humain qui reste toujours (disons dans des conditions plus ou moins normales et sereines) un système ouvert, auto-apprenant, qui se modifie par lui-même et au contact des autres et du monde, mais qui possède un caractère, et donc aussi une sorte de noyau structurel peu modifiable. Il faudra arriver à simuler ces deux aspects ; évolutif et figé.
Le réseau mnésique de la machine devra posséder une structure (le P-dual d’un graphe) dans laquelle les signifiants viendront s’ajouter au fur et à mesure de l’exercice de la machine, eux-mêmes pouvant modifier en retour les associations déjà tracées entre les signifiants présents, ainsi que se modifier eux-mêmes.
Par ailleurs, cette structure mnésique très ouverte (incomparablement plus ouverte que celle des systèmes experts) devra, pour ne pas partir en « tout sens » comme le dit Paul Jorion, être : « domestiquée ». C’est-à-dire que le discours engendré ne pourra pas être, en chacune de ses bifurcations, le résultat d’un choix hasardeux. Il faudra que le parcours soit « informé », « motivé ». Qu’il soit, à l’intérieur de l’espace du lexique, un sous-espace de parcours privilégiés, et cette motivation du choix s’opérera selon deux paramètres [14].
Tout d’abord selon l’affect. Paul Jorion va prendre modèle sur la théorie des affects de Freud pour donner sa structure singulière au réseau mnésique, en tant que c’est cette charge affective qui orienterait les passages d’un signifiant à l’autre, en tant aussi que ce serait lui le responsable de la dynamique et de la plus ou moins profonde inscription du signifiant dans le réseau mnésique et donc par-là, de sa propre structure. Pour Freud tout enregistrement d’un percept (visuel, auditif) passe par le système limbique qui lui donne cette petite charge affective, et qui fait qu’il s’inscrit plus ou moins fortement en nous (pensons à la madeleine de Proust et à l’enchaînement associatif qui s’en est suivi en terme d’énoncé romanesque des dizaines d’années plus tard). Car pour Freud : « la mémoire est représentée par les frayages entre les neurones […] le frayage dépend de la qualité d’excitation qui traverse le neurone au cours du processus, et le nombre de fois où le processus se répète ».
Ainsi, on peut penser que ce sont les impressions qui ont agi le plus fortement sur nous qui nous déterminent le plus, qui nous font dire telle chose plutôt que telle autre, qui nous font associer un signifiant avec un autre. Il faudra donc pour orienter le choix lors d’une bifurcation au sein de la machine, donner comme une pondération affective, et transposer ce que Freud nomme la « Bahnung » (le frayage) de la psyché humaine, en renforcement hebbien [15] dans la machine.
Ainsi, on stockerait dans la machine au niveau de l’arc deux valeurs, l’impédance qui correspondrait à la valeur d’affect et la résistance qui serait l’inverse du frayage et ce faisant, on associe à l’arc, non pas une valeur mais un vecteur. Mais par ailleurs, avec l’affect, ce qui entre en jeu, c’est la perception et donc la représentation du monde à travers les organes et les tissus d’un corps [16]. Il va donc falloir que la machine s’équipe d’une interface qui soit en prise avec les phénomènes du monde et qu’elle ne soit plus seulement une machine de langage. Cela sera le cas avec les machines de type « réseau de neurones », et nous pensons entre autre au perceptron.
Machines interfacées et néoténie
En 1989, Paul Jorion développe dans son livre : principes des systèmes intelligents, une autre approche de l’intelligence artificielle, et plutôt que d’en rester à des systèmes déjà entièrement programmés et figés au moyen de structures logiques, il propose de faire de ces machines des machines néoténiques qui seraient capables de s’auto-organiser, d’apprendre, de négocier leur savoir, au fond d’avoir comme une biographie et une personnalité ; et cela, selon des principes empruntés, à la fois à la théorie du langage (abandon du problème de la signification, mise en avant du coup par coup, et du postulat que : « le sens c’est l’usage » [17]), mais encore à la théorie de la psyché de Freud, Lacan et Klein (l’associationnisme avec l’idée de « l’association libre » des signifiants dans la théorie de l’inconscient, puis celle de la charge affective qui structure la matrice mnésique par frayage), et encore en partant d’une base anatomique (la structure du cortex cérébral : neurones et synapses dont la formalisation mathématique est le P-dual).
En s’appuyant sur cette approche, se développeront ce que l’on appelle aujourd’hui les réseaux de neurones ou les réseaux évolutionnaires, que nous allons maintenant présenter succinctement. Cependant, il n’est pas sûr que ce qui nous avait tant saisi (et plu) à la lecture du livre de Jorion, à savoir la présence de la dimension Psychanalytique dans l’intelligence artificielle, c’est-à-dire celle des affects, et de l’inconscient, soit reprise et retravaillée au sein des réseaux de neurones, car il semblerait plutôt qu’une bascule vers le biologique ait été opérée. Le modèle de la dynamique des affects semble être passé en retrait au profit du biologique. Au profit, (peut-être ?) d’une tendance bio-réductionniste ?
Biomimétisme mais réductionnisme ?
Modélisation de la structure humaine et implémentation dans les machines
Le problème, ici, est toujours celui de l’intelligence et de l’imitation de ses effets par la machine mais envisagé un peu différemment.
D’un côté donc, des neurones, des cellules gliales, des capillaires, du sang, des synapses ; de l’autre du matériel minéral, des conducteurs ou semi-conducteurs, de l’électricité, et des algorithmes.
Comparaison très sommaire mais qui pose les éléments en présence ou en leur rapport en inadéquation. Car à priori entre les deux, peu de rapport, si ce n’est par l’intermédiaire de la modélisation. C’est donc la modélisation qui a permis d’effectuer le passage de l’un à l’autre, de l’humain à la machine, au moyen de ce qu’on appelle le biomimétisme des « réseaux de neurones ». Les chercheurs et les chercheuses ont pris pour point de départ la structure du cerveau, et en ont réalisé un modèle en s’intéressant plus particulièrement à deux aspects. Premièrement à la manière dont les neurones sont interconnectés, structurés, et deuxièmement à ce lieu de passage et de modification de l’information qu’est la synapse.[18]Nous trouvons dans le que sais-je : les réseaux de neurones écrit par F. Blayo, M. Verleysen cette définition des réseaux de neurones : « Les réseaux de neurones sont une métaphore des structures cérébrales (modélisées) : des assemblages de constituants élémentaires, qui réalisent chacun un traitement simple mais dont l’ensemble fait émerger des propriétés globales digne d’intérêt.
L’ensemble est un système parallèle fortement interconnecté
L’information détenue par le réseau est distribuée à travers l’ensemble des constituants, et non localisée dans une partie de la mémoire sous la forme d’un symbole. Enfin un réseau de neurones ne se programme pas pour réaliser une tâche, mais il est entraîné sur des données acquises, grâce à un mécanisme d’apprentissage qui agit sur les constituants du réseau. »
Une fois cette modélisation de haut niveau [19] réalisée, ils ont alors tenté de la traduire sur un plan algorithmique [20]. Mais pour cela encore fallait-il postuler que l’intelligence humaine est calcul, c’est-à-dire postuler que la raison et la pensée humaine se réduisent à du calcul ce qu’avait refusé Paul Jorion, lorsqu’il avait tenté de modéliser la part inconsciente de la pensée humaine, la part de son désir, et de ce qui relève de l’affect pour l’implémenter dans la machine. Ainsi, la machine se donne pour structure celle du cortex humain, et dans le même temps on pose que, lorsque l’humain pense, ce qu’il fait c’est qu’il calcule. Il y a comme cela, une sorte de mouvement d’influence, de va-et-vient, qui va de la machine à l’humain et de l’humain à la machine. Et nous pouvons trouver une origine à un tel postulat dans les propos du philosophe anglais du 17° siècle Thomas Hobbes ; dans son Léviathan voici ce que nous pouvons lire : « raisonner n’est que conclure d’une addition de parties à une somme totale ou de la soustraction d’une somme d’une autre à un reste (…) Ces opérations ne sont pas particulières aux nombres ; elles intéressent toutes les espèces de choses susceptibles de s’ajouter les unes aux autres. (…) […] En somme partout où il y a de la place pour l’addition et la soustraction il y a aussi place pour la raison…la raison n’est en ce sens que le calcul des noms généraux convenus pour marquer et signifier nos pensées, je dis les marquer quand nous pensons pour nous-mêmes, et les signifier quand nous démontrons nos calculs à d’autres. » [21]
Voici donc à peu près posés les éléments à partir desquels travaillent les chercheurs : neurones, synapses et calcul.
Nous allons maintenant passer rapidement en revue les étapes importantes qui ont permis au champ de l’intelligence artificielle de prendre forme et de donner lieu au réseau de neurones.
Au départ il y a les travaux d’Herbert Spencer lorsqu’il montre de quelle manière une structure nerveuse contrôle un muscle.
Ensuite, il y a le concept de mémoire associative [22] qui démontre que la fréquence de la conjonction d’évènements tend à renforcer les liens entre leurs représentations cérébrales et que le rappel d’une idée tend à en appeler une autre.
Puis il y a l’apport de D. Hebb dont nous avons déjà parlé, qui interprète l’apprentissage comme la modification dynamique des poids synaptiques.
Puis encore, la loi « du tout ou rien » découverte dans les années 20 par Edgar Douglas Adrian [23]qui montre que le neurone n’est excité que si un seuil est atteint. C’est-à-dire que même si un neurone est stimulé, il se peut qu’il n’y ait pas de potentiel, ni de signal en sortie, et cela parce que la stimulation (en fréquence) aura été trop faible. Cette découverte est particulièrement importante en ce qu’elle permet de relier la biologie à la logique, de faire point de passage entre les deux, puisque cette loi « du tout ou rien » est similaire dans sa forme (qui transforme un processus physiologique continue en un processus discontinu et binaire) à celle des tableaux de vérité de la logique des prédicats (qui est binaire) et donc par suite formellement proche des outils de la logique mathématique. Et d’ailleurs en 1943 on voit paraître un article qui porte le titre : « A logical calculus of ideas immanent in nervous activity » [24].
Ces éléments sont à la base du connexionnisme [25], lui-même situé (sur un plan épistémologique) à l’intersection de la neurobiologie, de la psychologie, et du développement de la logique mathématique [26]. Le but était de parvenir à faire correspondre une structure biologique modélisée à une structure logique binaire.
Ce croisement (en quelque sorte) a donné naissance aux machines appelées « réseau de neurones ».
Celles-ci, contrairement aux systèmes précédents (les ordinateurs construits selon l’architecture de Von Neumann) « ne supposent pas que l’on connaisse la solution du problème à traiter, plus précisément, la procédure à suivre pour l’atteindre ou l’approcher » [27]. « Les réseaux neuronaux s’inscrivent dans un cadre différent : la représentation des données est indirecte et répartie à travers un ensemble de connexions et de poids synaptiques. Auto-organisée, elle est apte à des représentations de haut-niveau (concepts). Pour conclure on peut dire que : « la capacité de traitement de l’information est dynamique à travers la modulation, la création ou la destruction des liens neuronaux. (…) que ces réseaux « s’adaptent et apprennent, qu’ils savent généraliser, regrouper ou classer l’information et ceci du seul fait de leur structure et de leur dynamique, mais pour l’heure ils doivent être considérés comme un complément aux méthodes traditionnelles » [28] car on ne sait pas remonter la chaîne de leur raisonnement et on ne sait pas non plus, avec exactitude pourquoi ils donnent telle ou telle réponse. En quelque sorte, on n’arrive pas à les comprendre et ils échappent.
Présentons maintenant rapidement la structure de ces réseaux de neurones.
Réseau de neurones
Tout d’abord un réseau de neurones c’est une topologie. La mise en place d’éléments au sein d’un espace et c’est cet espace, sa configuration qui déterminera la potentialité du réseau. Ainsi un réseau non-bouclé et un réseau récurrent n’auront pas les mêmes possibilités, un réseau monocouche et un réseau multicouche non plus. On peut trouver des représentations de ces réseaux sur internet si l’on veut se faire une idée. Ici, pour illustrer notre propos, nous prendrons le perceptron qui est l’un des premiers modèles [29]. Il est constitué d’unités sensitives sensibles à des stimulations physiques diverses, d’unités d’association (connexions entrantes et sortantes), d’une unité de réponse (qui génère une réponse en dehors du réseau), et d’une matrice d’interaction qui définit des coefficients de couplage entre les différentes unités.
La particularité de ces systèmes c’est qu’ils sont apprenants, « c’est-à-dire que les stimulations externes induisent – via des mécanismes divers- des transformations [30] internes modifiant les réponses à l’environnement». Il faut encore ajouter que les unités de sens de ces systèmes (« les neurones/synapses) fonctionnent selon trois modalités : compétition, coopération, et adaptation.
Mais le problème avec ces systèmes, c’est qu’il faut encore les superviser lors de l’apprentissage. Il faut en quelque sorte encore qu’un être humain les « entraîne », or l’étape suivante est celle des réseaux apprenant non-supervisés, avec les réseaux qu’on appelle « évolutionnaires », nous les avions annoncés au tout début de l’article.
Réseaux évolutionnaires
Ces réseaux évolutionnaires n’ont plus besoin d’être supervisés lors de l’apprentissage. Ici, l’adaptation et l’auto-organisation est envisagée, non plus tellement du point de vue de l’apprentissage justement, mais dans une perspective darwinienne, du point de vue du code génétique. Selon la théorie de l’évolution, les organismes vivants se sont adaptés à leur environnement grâce à la modification et à la recombinaison de leur patrimoine génétique. Et c’est cela que les informaticiens essaient actuellement de modéliser et d’implémenter dans la machine. Nous voyons que le cadre épistémologique s’est déplacé depuis que nous avons commencé cet article.
Au départ avec Paul Jorion nous avions un cadre multidisciplinaire où même la psychanalyse (ce qui nous avait énormément intéressé) avait été prise en compte, puis avec les réseaux de neurones cette dimension a disparu, ne reste plus que l’apprentissage compris comme pondération synaptique, phénomène de récurrence et retro-propagation de gradient, et pour finir maintenant avec les réseaux évolutionnaires dans un cadre purement biologique et génétique (cela est rendu possible parce qu’on se représente le génome comme de l’information, c’est-à-dire qu’on fait travailler les unités de sens du génome dans le même sens que les unités de sens en informatique, on rabat l’une sur l’autre, c’est une perspective mais il pourrait y en avoir d’autres). Ainsi, ce que l’on observe c’est une dynamique qui s’apparente à un réductionnisme biologique. Mais avant de finir, exposons les principes qui régissent les réseaux évolutionnaires.
Principes des réseaux évolutionnaires : néoténie, aléatoire et auto-génération du code
« L’idée de base consiste à construire, sur une base aléatoire et/ou heuristique, un ensemble de solutions potentielles à un problème donné. » [31] Ce qui interpelle ici, c’est l’expression : « un ensemble de solutions potentielles », comme si on constituait une réserve de solutions en vue d’un tri qui s’effectuerait au fur et à mesure, comme si l’approche du résultat, progressive, devait s’effectuer par le jeu des mutations » [32].
Habituellement, ce que l’on fait c’est que l’on va directement à la solution, c’est-à-dire que dans l’intention même on cherche « la solution ». Mais ici, non, l’intention est autre. On commence par générer aléatoirement une population et le « matériel génétique » de cette population -qui dans ce cas est codée sous la forme d’une chaîne de bits et non de bases azotées-, représente un ensemble de solutions potentielles au problème posé. Ensuite, une fois que ces individus (chaînes de bits aléatoirement constituées) sont générés on calcule pour chacun un score (niveau d’adaptation), là, si l’objectif est atteint, alors a lieu la sortie de l’algorithme. Ensuite on sélectionne des reproducteurs en fonction des scores (c’est une sorte de sélection génétique et on entend peut-être les échos de l’eugénisme et ceux d’une diminution de la biodiversité). Puis on construit des descendants par l’application de différents opérateurs génétiques (croisement, mutation). Puis, pour finir, on procède au remplacement de la population par les descendants.
Nous voyons que les algorithmes évolutionnaires « fonctionnent en tirant parti de la diversité d’une population pour évoluer vers la solution recherchée. Au départ on n’a aucun moyen de connaître la direction à suivre, et on construit une population aléatoire.» [33] Ce que ces algorithmes évolutionnaires permettent c’est d’engendrer des programmes informatiques, et anecdotes surprenante : il n’est pas rare que les algorithmes découverts soient au moins équivalents à ceux construits par les humains. Le cas le plus étonnant est celui de la redécouverte, à partir des données sur le mouvement des planètes de la troisième loi de Kepler, redécouverte qui au cours de la progression de l’algorithme est passée par l’une des conjonctures initiales du savant allemand.
Dans le futur avec ces réseaux, les programmes informatiques seront de plus en plus générés automatiquement et de moins en moins construits (si le processus ne rencontre pas une limitation dont on n’aurait pas encore pu tenir compte).
Pour conclure nous pouvons dire que les réseaux évolutionnaires sont des réseaux de neurones mais qui sont axés sur trois finalités principales. Premièrement, celle qui veut substituer aux poids synaptiques du problème de l’apprentissage, un algorithme génétique (pool de solutions potentielles constitué d’individus constitués de chaîne de bits). Deuxièmement, celle qui veut remplacer les procédures manuelles (présence humaine) d’essais/erreur (apprentissage supervisé) par un apprentissage non-supervisé, grâce toujours à l’algorithme génétique, et troisièmement, l’évolution non pas des paramètres, mais de l’évolution du codage des paramètres, c’est-à-dire en quelque sorte que cela amène à trouver la règle d’adaptation la mieux adaptée à l’adaptation, on recule encore d’un cran.
Ainsi, nous arrivons au terme de ce parcours qui nous a vus partir du livre de Paul Jorion et de son geste : la convocation de la psychanalyse dans le monde de l’intelligence artificielle pour ouvrir les systèmes intelligents à l’auto-organisation et à l’apprentissage en fonction du couple affect/mémoire, c’est-à-dire pour faire en sorte que les systèmes possèdent une personnalité et une biographie, à une situation où le modèle biologico-génétique prime, lui-même sous-tendu par le paradigme de l’information.
Alors il resterait bien sûr, à parler de ce paradigme de l’information qui fut le grand absent de cet article et ce n’est peut-être pas pour rien.
Juliette Wolf
Tous nos remerciements à la revue Temps marranes n°30 dans lequel est paru l’original de cet article
[1] L’apprentissage profond relève du « machine learning » ou « apprentissage statistique » qui est un champ d’étude qui concerne la conception l’analyse, le développement et l’implémentation de méthodes permettant à une machine (au sens large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou impossibles à remplir par des moyens algorithmiques plus classiques. Les algorithmes utilisés permettent, dans une certaine mesure, à un système piloté par ordinateur (un robot éventuellement), ou assisté par ordinateur, d’adapter ses analyses et ses comportements en réponse, en se fondant sur l’analyse de données empiriques provenant d’une base de données ou de capteurs. Plusieurs modes d’apprentissage sont mis en jeu : l’apprentissage supervisé, l’apprentissage non-supervisé, et l’apprentissage semi-supervisé.
[2] En octobre 2015, le programme alphaGo ayant appris à jouer au jeu de go par la méthode du deep learning a battu par 5 parties à 0 le champion européen Fan Hui[3]. En mars 2016, le même programme a battu le champion du monde Lee Sedol 4 parties à 1. Information extraite d’un article de wikipédia
[3] Nous reprenons la distinction tripartite de Bernard Stiegler pour qui trois époques peuvent être dégagées dans l’histoire de l’évolution du rapport homme-machine: le temps où les machines se sont mises à « faire » à notre place, ce qui est pour l’auteur la strate du « savoir-faire », par exemple la machine du métier à tisser de Vaucansson, l’époque où les machines se sont mises à nous remplacer aussi dans notre « savoir vivre-ensemble » : par exemple avec la télévision, puis l’époque où les machines se sont mises à nous remplacer pour les activités de pensée, c’est la dernière strate, celle de la noèse, du « savoir-savoir » et que nous atteindrions aujourd’hui avec les machines du type : « machines apprenantes »
[4] Principes des systèmes intelligents. Paul Jorion. ed du croquant, 2012.
[5] Cette notion d’effet, nous la retrouvons chez Baruch Spinoza (1632-1677). Philosophe et tailleur de lentilles pour lunettes et microscope.
[6] Il ne s’agit pas du génome, mais d’une nouvelle façon de générer du code. Ce n’est plus l’utilisateur humain mais la machine elle-même au moyen d’une combinatoire aléatoire de populations binaires qui génère des « individus solutions », c’est-à-dire une sortie algorithmique efficace.
[7] Nous faisons référence à ses travaux sur Anella : Associative Network with Emerging Logical and Learning Abilities
[8] La série real human (la première saison) était une bonne mise en jeu de cette problématique. Quels rapports les humains vont-ils entretenir avec leurs robots qui auront désormais une apparence humaine et une intelligence identique –voire supérieure- à la leur ? Un rapport de maître-esclave, un rapport d’égalité ? De peur ? De rejet ? De jalousie ?
[9] Paul Jorion dit à propos de la signification : « le problème ce n’est pas que nous ne comprenons pas le fonctionnement de cette chose que nous appelons signification, c’est plutôt que nous ne savons pas ce qu’elle est. Autrement dit, nous ne savons pas ce que le mot veut dire, car si la signification est la chose à laquelle le mot renvoie, il y a peu de mots qui ont un significat. Exemple avec le mot liberté, à quelle chose « liberté » renvoie, ce n’est pas évident de le déterminer, on voit qu’il est ici plus question de définition, d’un sous-réseau du réseau mnésique, et que c’est une convention.
[10] Cette facilité de passage, est ce que les chercheurs des systèmes intelligents de type réseau de neurones vont appeler le renforcement progressif, par auto-modification du poids synaptique (la récurrence) et qui est en lien étroit avec la problématique de l’apprentissage puis donc, celle de l’auto-organisation.
[11] Nous citons Paul Jorion : « Mes paroles me surprennent moi-même et m’enseignent ma pensée ». La pensée ne serait qu’une reconstruction opérée sur la base des paroles prononcées.
[12] C’est ce qui donnera le terme de « réseau de neurones » pour les systèmes les plus récents.
[13] Dans un réseau sémantique les signifiants sont placés aux sommets, par exemple : « un perroquet » et les couleurs de relation – par exemple « est un », sont placés dans les arcs (les arcs sont des sortes de liens). C’est le contraire dans un réseau mnésique. Les couleurs de relations sont au sommet et les signifiants sont au niveau des arcs.
[14] Le premier paramètre : l’affect, nous en parlons dans cet article, mais le deuxième paramètre si nous n’en parlons pas, ce n’est pas parce que nous avons oublié mais parce que nous n’avons pas très bien compris de quoi il retourne. Paul Jorion parle de gravité, au sens de gravitation, de ce qui attire vers le bas. Nous laissons donc le lecteur et la lectrice dans l’obligation d’aller voir par eux-mêmes. C’est ici un manque, nous en sommes conscients.
[15] Hebbs (1904-1985) est psychologue et neuropsychologue canadien. Il va tenter de trouver une alternative au « behaviorisme », et ce faisant met en évidence le renforcement synaptique par simultanéité. Mais ce qui est intéressant c’est que Freud l’avait déjà postulé : « Or, il existe une loi fondamentale d’association par simultanéité [qui] donne le fondement de toutes les connexions entre neurones PSI. […]. La charge s’avère équivalente au frayage, par rapport au passage de la quantité (Q’n) ». Dans « Naissance de la psychanalyse”, PARIS, PUF 1979.
[16] Spinoza a montré en quoi l’affect est comme une fibre dédoublée. Nous le citons : « j’entends par affect les affections du corps par lesquelles sa puissance d’agir est accrue ou réduite, secondée et réprimée, et en même temps que ces affections, leurs idées. » L’affect est à la fois un événement corporel (affection) et la conscience de cet événement.
[17] cf. Wittgenstein.
[18] La synapse est une jonction fonctionnelle entre deux neurones, mais qui se traduit en terme topologique par un petit vide inter-membranaire. Elle permet le passage des neurotransmetteurs (pour les neurones chimiques) qui traduit le potentiel d’action du neurone afférent en un potentiel d’action pour le neurone efférent (potentiel qui peut devenir nul, voire même s’inverser). Les synapses jouent donc un rôle de premier plan dans le codage de l’information nerveuse.
[19] C’est une modélisation de haut niveau parce que c’est au niveau de la cellule dans sa globalité (le neurone et les synapses), insérés dans le réseau de l’ensemble cortical, qu’on se situe et non pas, par exemple, au niveau des échanges d’ions le long de la membrane. Mais on aurait pu faire ce choix.
[20] Peut-être faut-il attendre encore un peu pour qu’une hybridation plus prononcée devienne concrète, une convergence qui tendrait à une homéostasie en proportion, entre des supports biologiques et des supports « inorganique minéral ».
[21] Réseaux de neurones, une introduction. J.P Rennard. Ed Vuibert (2006).
[22] W. James (1842-1910).
[23] E.D Adrian est médecin et éléctrophysiologiste anglais.
[24] W. McCulloch Et W. Pitts.
[25] Nous précisons que le connexionnisme n’est qu’une des formes du biomimétisme appliquée à l’intelligence artificielle. Il y a encore par exemple : l’approche « animat », « animal-like » ou l’I.A distribuée.
[26] Influencé par Whitehead et Russell pour qui, il fallait refonder les mathématiques sur la seule base logique, cf. Leur livre : Principia mathematica publié en 1910-1913 .
[27] Réseaux de neurones, une introduction. J.P Rennard. Ed Vuibert (2006).
[28] Ibid.
[30] Réseaux de neurones, une introduction. J.P Rennard. Ed Vuibert (2006).
[31] Ibid.
[32] Ibid.
[33] Ibid.
PJ : « Un lecteur d’aujourd’hui de mon livre Principes des systèmes intelligents » Je pense que c’est le commentateur Colignon David*…