-
« Eureka : Dispositif de gratification de niveau humain par le biais du codage de grands modèles de langage [GPT-4] »
Eureka: Human-Level Reward Design via Coding Large Language Models, le 19 octobre 2023 Vue d’ensemble. Eureka part du code source de l’environnement non modifié et la description linguistique de la tâche comme contexte pour générer des fonctions de gratification exécutables à partir d’un LLM de codage [typiquement GPT-4]. Ensuite, il alterne entre la recherche évolutive…