Les grands moments de l’IA – Elle écrase l’humain à Casse-briques le 11 avril 2014

P.J. :

Aux alentours de 2015, Demis Hassabis présente une vidéo dans laquelle il montre l’IA battant les humains au jeu vidéo Atari Casse-briques. Pouvez-vous nous rafraîchir les idées ?

ChatGPT 4 o :

Vous pensez sans doute à la démonstration que DeepMind a présentée vers le début de l’année 2015, à l’époque de la publication de leurs travaux pionniers sur les “deep Q-networks” (DQN). À cette période, Demis Hassabis (co-fondateur de DeepMind) montrait souvent un extrait vidéo dans lequel leur agent d’IA parvenait à maîtriser le jeu d’Atari 2600, Casse-briques (Breakout). Cette vidéo, ainsi que la recherche qui l’accompagnait, avait suscité un vif intérêt car elle représentait l’un des premiers exemples publics et frappants de la capacité des méthodes d’apprentissage automatique – en particulier l’apprentissage par renforcement associé à des réseaux neuronaux profonds – à acquérir des comportements complexes à partir d’entrées visuelles brutes, et ce, sans règles prédéfinies.

Points clés pour rafraîchir votre mémoire :

  1. Contexte de la démonstration :
    En février 2015, les travaux de DeepMind ont été publiés dans Nature sous le titre « Human-level control through deep reinforcement learning ». À cette période, Hassabis et l’équipe ont réalisé différentes présentations et conférences, où ils mettaient en avant Casse-briques comme exemple phare. Les résultats ont également été relayés par de nombreux médias, faisant largement connaître cette technologie.
  2. Pourquoi avoir choisi Casse-briques ?
    Casse-briques est un jeu Atari simple mais instructif : le joueur contrôle une raquette pour renvoyer une balle vers des briques situées en haut de l’écran. Le principe visuel est facile à saisir, ce qui en fait un excellent support pour illustrer la façon dont une IA peut apprendre par elle-même. Le jeu exige également une certaine anticipation et de la stratégie, notamment la découverte qu’il est plus efficace de creuser un “tunnel” dans les briques afin que la balle puisse rebondir derrière elles, démolissant ainsi plusieurs briques d’affilée sans que la raquette n’ait à se déplacer constamment.
  3. Ce qui rendait la démonstration remarquable :
    Avant cela, la plupart des IA conçues pour jouer aux jeux vidéo s’appuyaient fortement sur des fonctionnalités élaborées à la main, des heuristiques spécifiques au jeu ou des systèmes symboliques. Le système de DeepMind ne s’appuyait sur aucune de ces techniques. Il ne connaissait au départ que les pixels bruts de l’écran et le score numérique. Au fil des heures d’entraînement – par essai-erreur – l’agent apprenait à jouer aussi bien, puis mieux, que la plupart des joueurs humains.

    De manière particulièrement impressionnante, l’IA a découvert d’elle-même la stratégie optimale consistant à creuser un couloir le long du côté du mur de briques, permettant à la balle de se glisser derrière le mur et de détruire de nombreuses briques sans intervention constante. Les humains découvrent souvent cette astuce intuitivement, mais personne ne l’avait jamais explicitement enseignée à l’agent. Cette découverte émergeait uniquement de l’algorithme d’apprentissage par renforcement cherchant à maximiser la récompense (le score).

  4. Fondements techniques :
    L’approche utilisait un type de modèle d’apprentissage profond – plus précisément un réseau de neurones convolutifs – pour traiter les pixels bruts de chaque image du jeu et produire une fonction de valeur (Q-values) pour chaque action possible (déplacer la raquette à gauche, à droite, ou rester immobile). Ce deep Q-network apprenait au fur et à mesure quelles actions menaient à des scores plus élevés. Le processus d’apprentissage était stabilisé et amélioré grâce à des techniques comme le “rejeu d’expérience” (experience replay), où l’agent stockait ses expériences passées (états, actions, récompenses) dans une mémoire tampon pour les réutiliser lors de l’entraînement.
  5. Impact plus large :
    Cette démonstration fut l’une des étincelles ayant conduit à l’explosion de l’intérêt pour l’apprentissage par renforcement combiné à l’apprentissage profond. Elle a convaincu de nombreux chercheurs et la communauté technologique au sens large que des méthodes générales – sans règles spécifiques au domaine – pouvaient obtenir des performances surhumaines dans des tâches complexes. Cela a ouvert la voie à de futures avancées, telles que AlphaGo, AlphaZero, et de multiples applications allant de la robotique à la gestion de ressources.

En somme, la présentation de Demis Hassabis autour de 2015 n’a pas simplement montré qu’une IA pouvait battre les humains à Casse-briques ; elle a symbolisé un bond en avant dans la manière dont les systèmes d’IA pouvaient apprendre des tâches complexes directement à partir de données sensorielles brutes, inaugurant ainsi une nouvelle ère dans la recherche en apprentissage machine.

Partager :

4 réponses à “Les grands moments de l’IA – Elle écrase l’humain à Casse-briques le 11 avril 2014

  1. Avatar de Didier Combes
    Didier Combes

    À dire vrai je vois mal où se situe l’exploit. Pour avoir connu ce jeu à la toute fin des années 1970, l’objectif du joueur assez aguerri était le même. Creuser le tunnel sur un des côtés et envoyer le palet au dessus du mur. La solution était trouvée de plusieurs façons. D’abord la répétition des parties pour acquérir une habileté à renvoyer le projectile avec la raquette, puis, soit parce qu’un tiers soufflait l’astuce du tunnel ( ce qui n’est pas égal à avoir trouvé une solution) soit parce qu’une fois le mur perforé de toutes parts, le constat visuel que le projectile pouvait rebondir aussi contre le plafond et détruire des briques par le haut, amenait la déduction, plus ou moins rapide selon la jugeote du joueur, du creusement de tunnel afin d’envoyer aussi rapidement que possible le palet rebondir entre le mur et le plafond. Était ce en moins de 4heures? Je ne sais pas.
    Ce qui m’étonne c’est la vitesse d’obtention du résultat par la machine alors qu’elle n’a pas la capacité du constat visuel du résultat de ses actions sur le palet comme casser une brique par le haut.

  2. Avatar de Alex
    Alex

    « L’IA écrase l’humain à Casse-briques le 11 avril 2014. »
    Oui, bon, mais quand l’IA écrasera-t-elle le capitalisme et les guerres qui en sont la conséquence directe comme disait un certain Jaurès ?
    Tout le reste n’a vraiment aucun intérêt et si l’IA se contente à casser des briques pour épater les blaireaux , on n’a pas fini de déchanter.

    1. Avatar de Paul Jorion

      Bonne question ! Et quand donc écraserez-vous vous, le capitalisme et les guerres qui en sont la conséquence directe comme disait un certain Jaurès ?

      Je bous d’impatience ! Quand allez-vous vous y mettre : on vous regarde ici à vous préparer, mais beaucoup de mots et peu d’actes concrets !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion

Commentaires récents

  1. Faut-il s’inquiéter de la marginalisation du lien maître-élève, ce ferment irremplaçable de la culture partagée ? Ben, je dirais ,…

Articles récents

Catégories

Archives

Tags

Allemagne Aristote BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »

Meta