P.J. :
Aux alentours de 2015, Demis Hassabis présente une vidéo dans laquelle il montre l’IA battant les humains au jeu vidéo Atari Casse-briques. Pouvez-vous nous rafraîchir les idées ?
ChatGPT 4 o :
Vous pensez sans doute à la démonstration que DeepMind a présentée vers le début de l’année 2015, à l’époque de la publication de leurs travaux pionniers sur les “deep Q-networks” (DQN). À cette période, Demis Hassabis (co-fondateur de DeepMind) montrait souvent un extrait vidéo dans lequel leur agent d’IA parvenait à maîtriser le jeu d’Atari 2600, Casse-briques (Breakout). Cette vidéo, ainsi que la recherche qui l’accompagnait, avait suscité un vif intérêt car elle représentait l’un des premiers exemples publics et frappants de la capacité des méthodes d’apprentissage automatique – en particulier l’apprentissage par renforcement associé à des réseaux neuronaux profonds – à acquérir des comportements complexes à partir d’entrées visuelles brutes, et ce, sans règles prédéfinies.
Points clés pour rafraîchir votre mémoire :
- Contexte de la démonstration :
En février 2015, les travaux de DeepMind ont été publiés dans Nature sous le titre « Human-level control through deep reinforcement learning ». À cette période, Hassabis et l’équipe ont réalisé différentes présentations et conférences, où ils mettaient en avant Casse-briques comme exemple phare. Les résultats ont également été relayés par de nombreux médias, faisant largement connaître cette technologie. - Pourquoi avoir choisi Casse-briques ?
Casse-briques est un jeu Atari simple mais instructif : le joueur contrôle une raquette pour renvoyer une balle vers des briques situées en haut de l’écran. Le principe visuel est facile à saisir, ce qui en fait un excellent support pour illustrer la façon dont une IA peut apprendre par elle-même. Le jeu exige également une certaine anticipation et de la stratégie, notamment la découverte qu’il est plus efficace de creuser un “tunnel” dans les briques afin que la balle puisse rebondir derrière elles, démolissant ainsi plusieurs briques d’affilée sans que la raquette n’ait à se déplacer constamment. - Ce qui rendait la démonstration remarquable :
Avant cela, la plupart des IA conçues pour jouer aux jeux vidéo s’appuyaient fortement sur des fonctionnalités élaborées à la main, des heuristiques spécifiques au jeu ou des systèmes symboliques. Le système de DeepMind ne s’appuyait sur aucune de ces techniques. Il ne connaissait au départ que les pixels bruts de l’écran et le score numérique. Au fil des heures d’entraînement – par essai-erreur – l’agent apprenait à jouer aussi bien, puis mieux, que la plupart des joueurs humains.De manière particulièrement impressionnante, l’IA a découvert d’elle-même la stratégie optimale consistant à creuser un couloir le long du côté du mur de briques, permettant à la balle de se glisser derrière le mur et de détruire de nombreuses briques sans intervention constante. Les humains découvrent souvent cette astuce intuitivement, mais personne ne l’avait jamais explicitement enseignée à l’agent. Cette découverte émergeait uniquement de l’algorithme d’apprentissage par renforcement cherchant à maximiser la récompense (le score).
- Fondements techniques :
L’approche utilisait un type de modèle d’apprentissage profond – plus précisément un réseau de neurones convolutifs – pour traiter les pixels bruts de chaque image du jeu et produire une fonction de valeur (Q-values) pour chaque action possible (déplacer la raquette à gauche, à droite, ou rester immobile). Ce deep Q-network apprenait au fur et à mesure quelles actions menaient à des scores plus élevés. Le processus d’apprentissage était stabilisé et amélioré grâce à des techniques comme le “rejeu d’expérience” (experience replay), où l’agent stockait ses expériences passées (états, actions, récompenses) dans une mémoire tampon pour les réutiliser lors de l’entraînement. - Impact plus large :
Cette démonstration fut l’une des étincelles ayant conduit à l’explosion de l’intérêt pour l’apprentissage par renforcement combiné à l’apprentissage profond. Elle a convaincu de nombreux chercheurs et la communauté technologique au sens large que des méthodes générales – sans règles spécifiques au domaine – pouvaient obtenir des performances surhumaines dans des tâches complexes. Cela a ouvert la voie à de futures avancées, telles que AlphaGo, AlphaZero, et de multiples applications allant de la robotique à la gestion de ressources.
En somme, la présentation de Demis Hassabis autour de 2015 n’a pas simplement montré qu’une IA pouvait battre les humains à Casse-briques ; elle a symbolisé un bond en avant dans la manière dont les systèmes d’IA pouvaient apprendre des tâches complexes directement à partir de données sensorielles brutes, inaugurant ainsi une nouvelle ère dans la recherche en apprentissage machine.
Laisser un commentaire