« Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands modèles de langage [GPT-4] »

25 février 2024 16h40

Eureka: Human-Level Reward Design via Coding Large Language Models, le 19 octobre 2023

Vue d’ensemble. Eureka part du code source de l’environnement non modifié et la description linguistique de la tâche comme contexte pour générer des fonctions de gratification exécutables à partir d’un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche évolutive de gratifications, l’évaluation de gratifications accélérée par le GPU [la « carte graphique »] et la réévaluation des gratifications afin d’améliorer progressivement ses résultats en matière de gratifications.

Apprentissage de la marche :

Point de départ

Étape 1

Étape 2

Étape 3

Étape 4

Aboutissement

Intelligence Artificielle, Optimisation, Programmation, Robotique

apprentissage, fonction de gratification, intelligence artificielle, Nvidia, robotique

14 réponses à “« Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands modèles de langage [GPT-4] »”

Khanard

25 février 2024 17h30

Avec l’arthrose déformante qui s’attaque à mes doigts tout cela me laisse rêveur .

Mais tant que je peux jouer de la clarinette je ne suis pas inquiet .

Répondre
1. gaston
  
  26 février 2024 9h24
  
  Vous jouez de la clarinette ? La preuve que ce n’est pas du pipeau ;
  
  https://p9.storage.canalblog.com/93/76/1097219/88133145_o.jpg
  
  Répondre
  1. Khanard
    
    26 février 2024 9h29
    
    @gaston
    
    excellente image !! je la garde !
    
    et oui je joue de la clarinette depuis ….30 ans
    
    Répondre
Pad

25 février 2024 17h55

1. Recherche Évolutive de Gratifications

La recherche évolutive est une méthode d’optimisation inspirée par le processus de sélection naturelle. Dans le contexte de la génération de fonctions de gratification, cela impliquerait de générer plusieurs variations de fonctions de gratification, d’évaluer leur performance dans l’environnement cible, et de sélectionner les meilleures pour les itérations futures. Ce processus est répété, avec des modifications et des combinaisons des fonctions les plus performantes, pour améliorer progressivement les résultats.

2. Évaluation Accélérée par GPU

L’évaluation accélérée par GPU se réfère à l’utilisation de processeurs graphiques (GPU) pour effectuer des calculs parallèles rapides. Dans ce cas, les GPU seraient utilisés pour évaluer rapidement l’efficacité des fonctions de gratification générées. Les GPU peuvent considérablement accélérer le processus d’évaluation en permettant l’exécution simultanée de nombreuses instances de l’environnement, fournissant ainsi des retours plus rapides sur la performance des fonctions de gratification.

3. Réévaluation des Gratifications

La réévaluation des gratifications implique de revoir et d’ajuster les fonctions de gratification en fonction des résultats obtenus lors de l’évaluation. Cela peut inclure l’affinement des paramètres, la modification des aspects de la fonction qui n’ont pas bien performé, ou l’essai de nouvelles approches basées sur les données recueillies. L’objectif est d’affiner continuellement les fonctions de gratification pour qu’elles soient de plus en plus efficaces et alignées avec l’objectif de la tâche.

Répondre
1. PHILGILL
  
  26 février 2024 3h02
  
  Pour rappel, c’est amusant, le terme itération, issu du verbe latin iterare, signifie « cheminer ».
  Et du chemin à l’apprentissage, il n’y a qu’un pas, puisque la marche est un long apprentissage !
  Mais si « le départ de l’évolution humaine n’a pas été pris par le cerveau mais par les pieds », comme l’a écrit le paléoanthropologue André Leroi-Gourhan ; la meilleure façon de penser se résumerait donc et avant tout à mettre un pied devant l’autre, et de recommencer.
  Il existe un vieil adage qui dit que « la pratique rend parfait ». Parfait, mais pour atteindre quelle hauteur de perfection ?
  Roger-Pol Droit : « Les bipèdes que nous sommes marchent d’une manière étonnante. La façon dont nous posons un pied devant l’autre nous déséquilibre en permanence puisque nous ne cessons de lever et de jeter une jambe vers l’avant. Nous avançons par un mouvement de déséquilibre. C’est le modèle sur lequel la pensée s’est construite puisque philosopher consiste toujours à déstabiliser ses certitudes…»
  Alors si marcher et penser, l’un ne va pas sans l’autre, reposent tous deux sur un mouvement de déséquilibre permanent, comment imaginer la marche, en pratique, d’un modèle qui serait absolument parfait (omnitudo realitatis) ?
  
  Répondre
  1. Thomas jeanson
    
    26 février 2024 10h34
    
    Vs Culbuto adaptatis….
    
    Répondre
    1. Pad
      
      26 février 2024 10h48
      
      https://www.defnat.com/e-RDN/vue-article-cahier.php?carticle=25&cidcahier=1166
      
      Répondre
  2. Lagarde Georges
    
    26 février 2024 10h40
    
    « Les enfants tombent en marchant, les adultes marchent en tombant.»
    
    Après examen il a été établi qu’il y a plusieurs façons de marcher (par exemple celle d’un bébé qui commence n’a pas grand chose à voir avec celle d’un alpiniste entrain de monter rapidement sur un chemin en pente et celle d’un vieillard diffère de ces deux là.)
    
    Question: est-ce que, de même qu’un humain n’a pas besoin de connaître la mécanique et la physiologie pour apprendre à marcher, les robots sur deux pates pourront se dispenser de connaître la mécanique (y compris les règles les plus élémentaires du style polygone de sustentation) ?
    
    Autre citation intéressante: « heureusement, on n’apprend pas à marcher à l’école, sinon […] »
    
    Répondre
    1. Lagarde Georges
      
      26 février 2024 12h16
      
      « La société Sony [a utilisé les algorithmes génétiques] dans son robot Aibo. En effet, ce robot a « appris » à marcher dans un dispositif expérimental où son système de commande a été soumis à une évolution artificielle. Différents modes de commandes ont été testés, les plus performants ont été croisés et le résultat a été très positif. De génération en génération, le robot s’est redressé, puis a commencé à marcher en chutant souvent et a fini par marcher d’un pas assuré. » (Wikipedia)
      
      Pour marcher les humains utilisent le repérage dans l’espace par l’oreille interne et la proprioception c.a.d. le retour des sensations que revoient muscles et articulations au cerveau. Dans le cas des robots bipèdes il serait interessant de savoir par quoi c’est remplacé.
      
      Sinon j’ai toujours été surpris de voir que les robots bipèdes ont les pieds plats et rigides: à mon avis nous serions très handicapés s’il nous fallait nous contenter de machins aussi primitifs à côté des quels nos pieds semblent beaucoup plus intelligents. Les gens les plus raisonnables préfèrent les roues, ne serait-ce que parce que ça permet d’économiser énormément les batteries, mais il est vrai que c’est nettement moins amusant.
      
      Répondre
Kikok

25 février 2024 19h43

Ah ! l’idée qu’une IA puisse être analysée et modifiée par d’autres IA est… incroyable. Si cette situation se maintient, je pense qu’il y aura d’énormes progrès et d’énormes problèmes.
Les humains doivent se rassembler et trouver un moyen pour empêcher que le film de science-fiction selon lequel les humains pourraient un jour être dominés par l’IA ne devienne une réalité.

Répondre
jip404

25 février 2024 20h51

Suivez les progrès d’Albert dans l’apprentissage de la marche, la course, la montée d’escalier, … Le tout en apprentissage par renforcement profond.

https://www.youtube.com/@aiwarehouse/videos

En 93/94, j’avais aidé un étudiant d’informatique dont le sujet du travail de fin d’étude était la programmation d’un agent qui se déplaçait dans une grille rectangulaire (pas très grande) qui avait un rayon de vision carré et devait manger de la nourriture fixe sur la grille en évitant de se faire manger par un prédateur qui fonçait directement sur lui et auquel il pouvait échapper en se réfugiant dans des cases « terrier » sur la grille. Il était pénalisé quand il mourrait de faim ou se faisait manger.

Et bien assez rapidement, il trouvait le comportement optimal: se diriger tout droit vers la nourriture, fuir le prédateur, se cacher dans un terrier.

Ça utilisait le Q-learning.

On m’aurait dit qu’on arriverait au niveau actuel, je ne l’aurais jamais cru. D’ailleurs, je rigolais bien quand certains prétendaient que l’IA battrait les humains aux échecs. Puis j’ai encore rigolé quand on a dit que l’IA traduirait précisément des textes. J’ai aussi rigolé (je suis un rigolard) quand on a dit que l’IA pourrait répondre à des questions posées en langage naturel. Maintenant, je ne rigole plus et prétends avec le plus grand sérieux que tout ça, je l’avais prévu.

Répondre
gaston

26 février 2024 9h28

La récompense qui fait progresser les robots ? Voilà qui va faire plaisir à Garo qui prend beaucoup de temps à distribuer des croquettes.

Une démonstration :

https://www.youtube.com/watch?v=sSKxxVtAANQ

Répondre
1. Pad
  
  26 février 2024 10h44
  
  Nous pensions qu’il s’agissait d’un horizon lointain … Assurez-vous de ne pas en croiser un au coin de la rue tout à l’heure 🙂
  
  https://www.youtube.com/watch?v=HE5-J0YnlIE
  
  Répondre
  1. gaston
    
    26 février 2024 20h44
    
    C’est ce que dit le commentaire (à 24 mn 50) de la vidéo que j’ai postée ce matin. Vaut mieux être prévenu 2 fois que pas du tout ! 😊
    
    Répondre