Un pas de géant pour une machine à jouer aux échecs
Par Steven Strogatz (Dec. 26, 2018) © The New York Times (Merci à Timiota et DeepL pour la traduction !)
Le succès stupéfiant d’AlphaZero, un algorithme d’apprentissage profond, annonce une nouvelle ère de la compréhension – une ère qui, en ce qui concerne les humains, pourrait ne pas durer longtemps.
Télévisions diffusant le Google DeepMind Challenge Match entre le programme d’intelligence artificielle de Google, AlphaGo, un prédécesseur d’AlphaZero, et le joueur de go professionnel sud-coréen, Lee Sedol, dans un magasin d’appareils électroniques à Séoul en 2016. L’ordinateur a remporté le match. Credit Ahn Young-joon/Associated
Début décembre, des chercheurs de DeepMind, la société d’intelligence artificielle appartenant à la société mère de Google, Alphabet Inc. ont diffusé une dépêche depuis les zones avancées du monde des échecs.
Un an plus tôt, le 5 décembre 2017, l’équipe avait stupéfié ce monde des échecs en annonçant AlphaZero, un algorithme d’apprentissage machine qui maîtrisait non seulement les échecs mais aussi le shogi, ou échecs japonais, et le Go. L’algorithme a commencé sans aucune connaissance des jeux hormis leurs règles de base. Il a ensuite joué contre lui-même des millions de fois et a appris par essais et erreurs. Il a suffi de quelques heures pour que l’algorithme devienne le meilleur joueur, humain ou ordinateur, que le monde ait jamais vu.
Les détails des capacités d’AlphaZero et de son fonctionnement interne ont maintenant été officiellement examinés par des pairs et publiés dans la revue Science ce mois-ci. Le nouvel article aborde plusieurs critiques graves à l’égard de l’allégation initiale (entre autres choses, il était difficile de dire si AlphaZero jouait l’adversaire qu’il s’était choisi, une entité computationnelle nommée Stockfish, en toute équité). Considérez que ces soucis sont maintenant dissipés. AlphaZero ne s’est pas amélioré davantage au cours des douze derniers mois, mais la preuve de sa supériorité s’est bien renforcée. Il fait clairement montre d’un type d’intellect que les humains n’ont jamais vue auparavant, et que nous allons avoir à méditer encore longtemps.
Les échecs par ordinateur ont fait beaucoup de chemin au cours des vingt dernières années. En 1997, le programme de jeu d’échecs d’I.B.M., Deep Blue, a réussi à battre le champion du monde humain en titre, Garry Kasparov, dans un match en six parties. Rétrospectivement, il y avait peu de mystère dans cette réalisation. Deep Blue pouvait évaluer 200 millions de positions par seconde. Il ne s’est jamais senti fatigué, n’a jamais fait d’erreur de calcul et n’a jamais oublié ce qu’il pensait un instant auparavant.
Pour le meilleur et pour le pire, il a joué comme une machine, brutalement et matériellement. Il pouvait dépasser M. Kasparov par le calcul, mais il ne pouvait pas le dépasser sur le plan de la pensée elle-même. Dans la première partie de leur match, Deep Blue a accepté avec avidité le sacrifice d’une tour par M. Kasparov pour un fou, mais a perdu la partie 16 coups plus tard. La génération actuelle des programmes d’échecs les plus forts du monde, tels que Stockfish et Komodo, joue toujours dans ce style inhumain. Ils aiment à capturer les pièces de l’adversaire. Ils ont une défense d’acier. Mais bien qu’ils soient beaucoup plus forts que n’importe quel joueur humain, ces « moteurs » d’échecs n’ont aucune réelle compréhension du jeu. Ils doivent être instruits explicitement pour ce qui touche aux principes de base des échecs.
Ces principes, qui ont été raffinés au fil de décennies d’expérience de grands maîtres humains, sont programmés dans les moteurs comme des fonctions d’évaluation complexes qui indiquent ce qu’il faut rechercher dans une position et ce qu’il faut éviter : comment évaluer le degré de sécurité du roi, l’activité des pièces, la structure dessinée par les pions, le contrôle du centre de l’échiquier, et plus encore, comment trouver le meilleur compromis entre tous ces facteurs. Les moteurs d’échecs d’aujourd’hui, inconscients de façon innée de ces principes, apparaissent comme des brutes : extrêmement rapides et forts, mais sans aucune perspicacité.
Tout cela a changé avec l’essor du machine-learning. En jouant contre lui-même et en mettant à jour son réseau neuronal au fil de son apprentissage, AlphaZero a découvert les principes des échecs par lui-même et est rapidement devenu le meilleur joueur connu. Non seulement il aurait pu facilement vaincre tous les maîtres humains les plus forts – il n’a même pas pris la peine d’essayer – mais il a écrasé Stockfish, le champion du monde d’échecs en titre par ordinateur. Dans un match de cent parties contre un moteur véritablement impressionnant, AlphaZero a remporté vingt-huit victoires et fait soixante-douze matchs nuls. Il n’a pas perdu une seule partie.
Le plus troublant, c’est qu’AlphaZero semblait être perspicace. Il a joué comme aucun ordinateur ne l’a jamais fait, intuitivement et magnifiquement, avec un style romantique et offensif. Il acceptait de sacrifier des pions et prenait des risques. Dans certaines parties, cela paralysait Stockfish et il s’est joué de lui. Lors de son attaque dans la partie n°10, AlphaZero a replacé sa reine dans le coin du plateau de jeu de son propre côté, loin du roi de Stockfish, pas là où une reine à l’offensive devrait normalement être placée.
Et cependant, cette retraite inattendue s’avéra venimeuse : peu importe comment Stockfish y répondait, ses tentatives étaient vouées à l’échec. C’était presque comme si AlphaZero attendait que Stockfish se rende compte, après des milliards de calculs intensifs bruts, à quel point sa position était vraiment désespérée, pour que la bête abandonne toute résistance et expire paisiblement, comme un taureau vaincu devant un matador. Les grands maîtres n’avaient jamais rien vu de tel. AlphaZero avait la finesse d’un virtuose et la puissance d’une machine. Il s’agissait du premier regard posé par l’humanité sur un nouveau type prodigieux d’intelligence.
Garry Kasparov, à gauche, jouant contre l’ordinateur I.B.M. Deep Blue dans la sixième et dernière partie d’un match à New York en mai 1997. Les pièces de l’ordinateur ont été déplacées par Joseph Hoane, à droite, un scientifique de l’I.B.M. Credit Stan Honda/Agence France-Presse – Getty Images
Lorsque AlphaZero fut dévoilé pour la première fois, certains observateurs se sont plaints que Stockfish avait été lobotomisé en ne lui donnant pas accès à son livre des ouvertures mémorisées. Cette fois-ci, même avec son livre, il a encore été écrasé. Et quand AlphaZero s’est handicapé en donnant dix fois plus de temps à Stockfish qu’à lui pour réfléchir, il a quand même démoli la bête.
Ce qui est révélateur, c’est qu’AlphaZero a gagné en pensant plus intelligemment, pas plus vite ; il n’a examiné que 60 000 positions par seconde, contre 60 millions pour Stockfish. Il était plus avisé, sachant ce à quoi on devait penser et ce qu’on pouvait ignorer. En découvrant les principes des échecs par lui-même, AlphaZero a développé un style de jeu qui « reflète la vérité profonde » du jeu plutôt que « les priorités et les préjugés des programmeurs », a expliqué M. Kasparov dans un commentaire qui accompagne et introduit l’article dans Science.
La question est maintenant de savoir si l’apprentissage automatique peut aider les humains à découvrir des vérités similaires sur les choses qui nous tiennent vraiment à cœur : les grands problèmes non résolus de la science et de la médecine, comme le cancer et la conscience ; les énigmes du système immunitaire, les mystères du génome.
Les premiers signes sont encourageants. En août dernier, deux articles parus dans Nature Medicine ont exploré comment l’apprentissage automatique pouvait être appliqué au diagnostic médical. Dans l’un d’entre eux, des chercheurs de DeepMind se sont associés à des cliniciens du Moorfields Eye Hospital de Londres pour mettre au point un algorithme d’apprentissage profond qui pourrait classer un large éventail de pathologies de la rétine aussi précisément que le font les experts humains (l’ophtalmologie souffre en effet d’une grave pénurie d’experts à même d’interpréter les millions de scans ophtalmologiques effectués chaque année en vue d’un diagnostic ; des assistants numériques intelligents pourraient apporter une aide énorme).
L’autre article concernait un algorithme d’apprentissage machine qui décide si un tomodensitogramme (CT scan) d’un patient admis en urgence montre des signes d’un accident vasculaire cérébral (AVC), ou d’une hémorragie intracrânienne ou encore d’un autre événement neurologique critique. Pour les victimes d’AVC, chaque minute compte ; plus le traitement tarde, plus le résultat clinique se dégrade. (Les neurologistes ont ce sombre dicton: « time is brain »). Le nouvel algorithme a étiqueté ces diagnostics et d’autres diagnostics critiques avec une précision comparable à celle des experts humains – mais il l’a fait 150 fois plus rapidement. Un diagnostic plus rapide pourrait permettre aux cas les plus urgents d’être aiguillés plus tôt, avec une vérification par un radiologiste humain.
Ce qui est frustrant à propos de l’apprentissage machine, cependant, c’est que les algorithmes ne peuvent pas exprimer ce qu’ils pensent. Nous ne savons pas pourquoi ils marchent, donc nous ne savons pas si on peut leur faire confiance. AlphaZero donne l’impression d’avoir découvert quelques principes importants sur les échecs, mais il ne peut pas partager cette compréhension avec nous. Pas encore, en tout cas. En tant qu’êtres humains, nous voulons plus que des réponses. Nous voulons de la perspicacité. Voilà qui va créer à partir de maintenant une source de tension dans nos interactions avec ces ordinateurs.
De fait, en mathématiques, c’est une chose qui s’est déjà produite depuis des années. Considérez le problème mathématique du « théorème des quatre couleurs », qui défie de longue date les cerveaux des mathématiciens. Il énonce que, sous certaines contraintes raisonnables, toute carte de pays contigus puisse toujours être coloriée avec seulement quatre couleurs, en n’ayant jamais deux fois la même couleur pour des pays adjacents.
Bien que le théorème des quatre couleurs ait été prouvé en 1977 avec l’aide d’un ordinateur, aucun humain ne pouvait vérifier toutes les étapes de la démonstration. Depuis lors, la preuve a été validée et simplifiée, mais il y a encore des parties qui impliquent un calcul de force brute, du genre de celui employé par les ancêtres informatiques d’AlphaZero qui jouent aux échecs. Ce développement a gêné de nombreux mathématiciens. Ils n’avaient pas besoin d’être rassurés que le théorème des quatre couleurs était vrai ; ils le croyaient déjà. Ils voulaient comprendre pourquoi c’était vrai, et cette démonstration ne les y a pas aidés.
Mais imaginez un jour, peut-être dans un avenir pas si lointain, où AlphaZero aura évolué vers un algorithme de résolution de problèmes plus général ; appelez-le AlphaInfinity. Comme son ancêtre, il aurait une perspicacité suprême : il pourrait trouver de belles démonstrations, aussi élégantes que les parties d’échecs qu’AlphaZero jouait contre Stockfish. Et chaque démonstration révélerait pourquoi un théorème était vrai ; l’AlphaInfinity ne vous l’enfoncerait pas juste dans la tête avec une démonstration moche et ardue.
Pour les mathématiciens et les scientifiques humains, ce jour marquerait l’aube d’une nouvelle ère de perspicacité. Mais ça ne durera peut-être pas. Alors que les machines deviennent de plus en plus rapides et que les humains restent en place avec leurs neurones fonctionnant à des échelles de temps de quelques millisecondes, un autre jour viendra où nous ne pourrons plus suivre. L’aube de la perspicacité humaine peut rapidement se transformer en crépuscule.
Supposons qu’il existe des régularités ou des modèles plus profonds à découvrir – dans la façon dont les gènes sont régulés ou dont le cancer progresse ; dans l’orchestration du système immunitaire ; dans la danse des particules subatomiques. Et supposons que ces schémas puissent être prédits, mais seulement par une intelligence bien supérieure à la nôtre. Si AlphaInfinity pouvait les identifier et les comprendre, cela nous semblerait être un oracle.
Nous nous assiérions à ses pieds et écouterions attentivement. Nous ne comprendrions pas pourquoi l’oracle a toujours raison, mais nous pourrions vérifier ses calculs et ses prédictions par rapport aux expériences et aux observations, et confirmer ses révélations. La science, cette entreprise de l’homme qui le caractérise par-dessus tout, aurait réduit notre rôle à celui de spectateurs, bouches bées dans l’émerveillement et la confusion.
Peut-être qu’un jour, notre manque de perspicacité ne nous dérangerait plus. Après tout, AlphaInfinity pourrait guérir toutes nos maladies, résoudre tous nos problèmes scientifiques et faire arriver tous nos autres trains intellectuels à l’heure avec succès. Nous nous sommes assez bien débrouillés sans trop de perspicacité pendant les quelque 300.000 premières années de notre existence en tant qu’Homo sapiens. Et nous ne manquerons pas de mémoire : nous nous souviendrons avec fierté de l’âge d’or de la perspicacité humaine, cet intermède glorieux, long de quelques milliers d’années, entre un passé où nous ne pouvions rien appréhender et un avenir où nous ne pourrons rien comprendre.
Steven Strogatz est professeur de mathématiques à Cornell University et auteur de l’ouvrage à venir « Infinite Powers : How Calculus Reveals the Secrets of the Universe « , dont cet essai est adapté.
1) On peut utiliser des bombes nucléaires pour stériliser l’entrée d’abris souterrains (au sens galeries bien bouchées, comme au sens…