HyperAIHyperAI

Command Palette

Search for a command to run...

AutoHarness : amélioration des agents LLM par synthèse automatique d'un code harness

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Résumé

Malgré les progrès significatifs réalisés ces dernières années dans le domaine des modèles de langage, ceux-ci, lorsqu'ils sont déployés en tant qu'agents, tentent souvent d'exécuter des actions non seulement sous-optimales pour un état donné, mais strictement interdites par l'environnement externe. Par exemple, lors de la récente compétition d'échecs GameArena sur Kaggle, 78 % des défaites de Gemini-2.5-Flash ont été attribuées à des coups illégaux. Il est courant que des développeurs écrivent manuellement des « harnesses » (cadres de contrôle) autour des LLM pour prévenir de telles défaillances. Dans cet article, nous démontrons que Gemini-2.5-Flash peut automatiquement synthétiser un tel code de type harness, en s'appuyant sur un nombre réduit de cycles de raffinement itératif du code, guidés par les retours de l'environnement (de jeu). Le harness résultant élimine tous les coups illégaux dans 145 jeux différents de TextArena (à un ou deux joueurs), permettant au modèle plus petit Gemini-2.5-Flash de surpasser des modèles plus grands, tels que Gemini-2.5-Pro. En poussant notre technique à ses limites, nous parvenons à faire générer par Gemini-2.5-Flash l'intégralité de la politique sous forme de code, éliminant ainsi le besoin d'utiliser le LLM au moment de la prise de décision. Cette politique codée obtient une récompense moyenne supérieure à celle de Gemini-2.5-Pro et de GPT-5.2-High sur 16 jeux TextArena à un joueur. Nos résultats montrent qu'utiliser un modèle plus petit pour synthétiser un harness de code personnalisé (ou une politique complète) permet de surpasser un modèle beaucoup plus grand, tout en étant plus rentable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AutoHarness : amélioration des agents LLM par synthèse automatique d'un code harness | Articles | HyperAI