Eureka: Human-Level Reward Design via Coding Large Language Models, le 19 octobre 2023
Vue d’ensemble. Eureka part du code source de l’environnement non modifié et la description linguistique de la tâche comme contexte pour générer des fonctions de gratification exécutables à partir d’un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche évolutive de gratifications, l’évaluation de gratifications accélérée par le GPU [la « carte graphique »] et la réévaluation des gratifications afin d’améliorer progressivement ses résultats en matière de gratifications.
Apprentissage de la marche :
Point de départ
Étape 1
Étape 2
Étape 3
Étape 4
Aboutissement
Laisser un commentaire