Je répondais tout à l’heure à un commentateur :
C’est là le point commun aux objections des sceptiques ici parmi les commentateurs : vous supposez impossibles les effets d’émergence par auto-organisation engendrée par la complexité [l’éventualité d’un bond qualitatif entre la machinerie en entrée et le produit en sortie].
Réfléchissez à ceci : s’il était impossible à un être humain de créer un cerveau plus intelligent que le sien, il aurait été impossible à des atomes de devenir des molécules ( = émergence par auto-organisation), à des molécules de devenir des acides aminés ( = émergence par auto-organisation), à des acides aminés de devenir de l’ADN ( = émergence par auto-organisation), etc. Or tout cela a eu lieu : l’univers n’est pas une soupe indistincte de quarks. Donc la Singularité est possible et … preuve supplémentaire : elle a eu lieu 😉 !
Un article datant d’octobre de l’année dernière permet de situer le niveau de complexité nécessaire à un réseau neuronal pour qu’émerge la capacité à parler couramment (maîtriser parfaitement la langue) et à parler en son nom (apparaître comme un sujet conscient) – ce qui pose évidemment la question de savoir s’il s’agit de deux capacités distinctes. Ce niveau de complexité semble être 1022 opérations en virgule flottante (FLOPs) nécessaires pour former (« training ») le modèle, ce qui correspond à un modèle d’environ 10 milliards de paramètres.
L’article s’intitule « Emergent Abilities of Large Language Models » (Les capacités émergentes des Grands Modèles de Langage), signé de seize auteurs, il date donc d’octobre 2022.
Cet article traite d’un phénomène non prévisible que nous appelons les capacités émergentes des Grands Modèles de Langage. Nous considérons qu’une capacité est émergente si elle n’est pas présente dans les modèles plus petits mais qu’elle l’est dans les modèles plus grands. Ainsi, les capacités émergentes ne peuvent pas être prédites simplement en extrapolant les performances des modèles plus petits.
Ci-dessous, deux figures représentant le décollage de la performance dans différents tests d’intelligence pour différents Grands Modèles de Langage (dont GPT-3), la première en fonction du nombre d’opérations nécessaires au « training », à l’apprentissage, la seconde en fonction du nombre de paramètres dans le modèle.
L’existence d’un seuil pour l’émergence de la compréhension du langage est manifeste.
Laisser un commentaire