« Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands modèles de langage [GPT-4] »

Eureka: Human-Level Reward Design via Coding Large Language Models, le 19 octobre 2023

Vue d’ensemble. Eureka part du code source de l’environnement non modifié et la description linguistique de la tâche comme contexte pour générer des fonctions de gratification exécutables à partir d’un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche évolutive de gratifications, l’évaluation de gratifications accélérée par le GPU [la « carte graphique »] et la réévaluation des gratifications afin d’améliorer progressivement ses résultats en matière de gratifications.

Apprentissage de la marche :

Point de départ

Étape 1

Étape 2

Étape 3

Étape 4

Aboutissement

Partager :

14 réponses à “« Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands modèles de langage [GPT-4] »

  1. Avatar de Khanard
    Khanard

    Avec l’arthrose déformante qui s’attaque à mes doigts tout cela me laisse rêveur .

    Mais tant que je peux jouer de la clarinette je ne suis pas inquiet .

    1. Avatar de gaston
      gaston

      Vous jouez de la clarinette ? La preuve que ce n’est pas du pipeau ;

      https://p9.storage.canalblog.com/93/76/1097219/88133145_o.jpg

      1. Avatar de Khanard
        Khanard

        @gaston

        excellente image !! je la garde !

        et oui je joue de la clarinette depuis ….30 ans

  2. Avatar de Pad
    Pad

    1. Recherche Évolutive de Gratifications

    La recherche évolutive est une méthode d’optimisation inspirée par le processus de sélection naturelle. Dans le contexte de la génération de fonctions de gratification, cela impliquerait de générer plusieurs variations de fonctions de gratification, d’évaluer leur performance dans l’environnement cible, et de sélectionner les meilleures pour les itérations futures. Ce processus est répété, avec des modifications et des combinaisons des fonctions les plus performantes, pour améliorer progressivement les résultats.

    2. Évaluation Accélérée par GPU

    L’évaluation accélérée par GPU se réfère à l’utilisation de processeurs graphiques (GPU) pour effectuer des calculs parallèles rapides. Dans ce cas, les GPU seraient utilisés pour évaluer rapidement l’efficacité des fonctions de gratification générées. Les GPU peuvent considérablement accélérer le processus d’évaluation en permettant l’exécution simultanée de nombreuses instances de l’environnement, fournissant ainsi des retours plus rapides sur la performance des fonctions de gratification.

    3. Réévaluation des Gratifications

    La réévaluation des gratifications implique de revoir et d’ajuster les fonctions de gratification en fonction des résultats obtenus lors de l’évaluation. Cela peut inclure l’affinement des paramètres, la modification des aspects de la fonction qui n’ont pas bien performé, ou l’essai de nouvelles approches basées sur les données recueillies. L’objectif est d’affiner continuellement les fonctions de gratification pour qu’elles soient de plus en plus efficaces et alignées avec l’objectif de la tâche.

    1. Avatar de PHILGILL
      PHILGILL

      Pour rappel, c’est amusant, le terme itération, issu du verbe latin iterare, signifie « cheminer ».
      Et du chemin à l’apprentissage, il n’y a qu’un pas, puisque la marche est un long apprentissage !
      Mais si « le départ de l’évolution humaine n’a pas été pris par le cerveau mais par les pieds », comme l’a écrit le paléoanthropologue André Leroi-Gourhan ; la meilleure façon de penser se résumerait donc et avant tout à mettre un pied devant l’autre, et de recommencer.
      Il existe un vieil adage qui dit que « la pratique rend parfait ». Parfait, mais pour atteindre quelle hauteur de perfection ?
      Roger-Pol Droit : « Les bipèdes que nous sommes marchent d’une manière étonnante. La façon dont nous posons un pied devant l’autre nous déséquilibre en permanence puisque nous ne cessons de lever et de jeter une jambe vers l’avant. Nous avançons par un mouvement de déséquilibre. C’est le modèle sur lequel la pensée s’est construite puisque philosopher consiste toujours à déstabiliser ses certitudes…»
      Alors si marcher et penser, l’un ne va pas sans l’autre, reposent tous deux sur un mouvement de déséquilibre permanent, comment imaginer la marche, en pratique, d’un modèle qui serait absolument parfait (omnitudo realitatis) ?

      1. Avatar de Thomas jeanson
        Thomas jeanson

        Vs Culbuto adaptatis….

      2. Avatar de Lagarde Georges
        Lagarde Georges

        « Les enfants tombent en marchant, les adultes marchent en tombant.»

        Après examen il a été établi qu’il y a plusieurs façons de marcher (par exemple celle d’un bébé qui commence n’a pas grand chose à voir avec celle d’un alpiniste entrain de monter rapidement sur un chemin en pente et celle d’un vieillard diffère de ces deux là.)

        Question: est-ce que, de même qu’un humain n’a pas besoin de connaître la mécanique et la physiologie pour apprendre à marcher, les robots sur deux pates pourront se dispenser de connaître la mécanique (y compris les règles les plus élémentaires du style polygone de sustentation) ?

        Autre citation intéressante: « heureusement, on n’apprend pas à marcher à l’école, sinon […] »

        1. Avatar de Lagarde Georges
          Lagarde Georges

          « La société Sony [a utilisé les algorithmes génétiques] dans son robot Aibo. En effet, ce robot a « appris » à marcher dans un dispositif expérimental où son système de commande a été soumis à une évolution artificielle. Différents modes de commandes ont été testés, les plus performants ont été croisés et le résultat a été très positif. De génération en génération, le robot s’est redressé, puis a commencé à marcher en chutant souvent et a fini par marcher d’un pas assuré. » (Wikipedia)

          Pour marcher les humains utilisent le repérage dans l’espace par l’oreille interne et la proprioception c.a.d. le retour des sensations que revoient muscles et articulations au cerveau. Dans le cas des robots bipèdes il serait interessant de savoir par quoi c’est remplacé.

          Sinon j’ai toujours été surpris de voir que les robots bipèdes ont les pieds plats et rigides: à mon avis nous serions très handicapés s’il nous fallait nous contenter de machins aussi primitifs à côté des quels nos pieds semblent beaucoup plus intelligents. Les gens les plus raisonnables préfèrent les roues, ne serait-ce que parce que ça permet d’économiser énormément les batteries, mais il est vrai que c’est nettement moins amusant.

  3. Avatar de Kikok
    Kikok

    Ah ! l’idée qu’une IA puisse être analysée et modifiée par d’autres IA est… incroyable. Si cette situation se maintient, je pense qu’il y aura d’énormes progrès et d’énormes problèmes.
    Les humains doivent se rassembler et trouver un moyen pour empêcher que le film de science-fiction selon lequel les humains pourraient un jour être dominés par l’IA ne devienne une réalité.

  4. Avatar de jip404
    jip404

    Suivez les progrès d’Albert dans l’apprentissage de la marche, la course, la montée d’escalier, … Le tout en apprentissage par renforcement profond.

    https://www.youtube.com/@aiwarehouse/videos

    En 93/94, j’avais aidé un étudiant d’informatique dont le sujet du travail de fin d’étude était la programmation d’un agent qui se déplaçait dans une grille rectangulaire (pas très grande) qui avait un rayon de vision carré et devait manger de la nourriture fixe sur la grille en évitant de se faire manger par un prédateur qui fonçait directement sur lui et auquel il pouvait échapper en se réfugiant dans des cases « terrier » sur la grille. Il était pénalisé quand il mourrait de faim ou se faisait manger.

    Et bien assez rapidement, il trouvait le comportement optimal: se diriger tout droit vers la nourriture, fuir le prédateur, se cacher dans un terrier.

    Ça utilisait le Q-learning.

    On m’aurait dit qu’on arriverait au niveau actuel, je ne l’aurais jamais cru. D’ailleurs, je rigolais bien quand certains prétendaient que l’IA battrait les humains aux échecs. Puis j’ai encore rigolé quand on a dit que l’IA traduirait précisément des textes. J’ai aussi rigolé (je suis un rigolard) quand on a dit que l’IA pourrait répondre à des questions posées en langage naturel. Maintenant, je ne rigole plus et prétends avec le plus grand sérieux que tout ça, je l’avais prévu.

  5. Avatar de gaston
    gaston

    La récompense qui fait progresser les robots ? Voilà qui va faire plaisir à Garo qui prend beaucoup de temps à distribuer des croquettes.

    Une démonstration :

    https://www.youtube.com/watch?v=sSKxxVtAANQ

    1. Avatar de Pad
      Pad

      Nous pensions qu’il s’agissait d’un horizon lointain … Assurez-vous de ne pas en croiser un au coin de la rue tout à l’heure 🙂

      https://www.youtube.com/watch?v=HE5-J0YnlIE

      1. Avatar de gaston
        gaston

        C’est ce que dit le commentaire (à 24 mn 50) de la vidéo que j’ai postée ce matin. Vaut mieux être prévenu 2 fois que pas du tout ! 😊

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Contact

Contactez Paul Jorion

Commentaires récents

Articles récents

Catégories

Archives

Tags

Allemagne Aristote bancor BCE Bourse Brexit capitalisme ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grands Modèles de Langage Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon Joe Biden John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme zone euro « Le dernier qui s'en va éteint la lumière »

Meta