Command Palette
Search for a command to run...
AutoHarness: Verbesserung von LLM Agents durch automatische Synthese eines Code Harness
AutoHarness: Verbesserung von LLM Agents durch automatische Synthese eines Code Harness
Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy
Zusammenfassung
Trotz erheblicher Fortschritte bei Sprachmodellen in den letzten Jahren neigen solche Modelle, wenn sie als Agenten eingesetzt werden, häufig dazu, Aktionen auszuführen, die nicht nur für einen gegebenen Zustand suboptimal sind, sondern von der externen Umgebung strikt verboten werden. So wurden beispielsweise bei der jüngsten Kaggle GameArena-Schachkompetition 78 % der Niederlagen von Gemini-2.5-Flash auf illegale Züge zurückgeführt. Häufig schreiben Entwickler manuell „Harnesses" (Einschlussprogramme) um LLMs herum, um derartige Fehler zu verhindern. In diesem Beitrag zeigen wir, dass Gemini-2.5-Flash solche Code-Harnesses automatisch synthetisieren kann, und zwar mithilfe einer geringen Anzahl von Iterationsschritten zur Code-Verfeinerung, die auf Rückmeldungen aus der (Spiel-)Umgebung basieren. Der resultierende Harness verhindert in 145 verschiedenen TextArena-Spielen (sowohl Ein- als auch Zweipersonenspiele) sämtliche illegalen Züge und ermöglicht es dem kleineren Modell Gemini-2.5-Flash, größere Modelle wie Gemini-2.5-Pro zu übertreffen. Wenn wir unsere Methode an die Grenzen ihrer Leistungsfähigkeit bringen, kann Gemini-2.5-Flash die gesamte Policy in Code generieren, wodurch der Einsatz des LLM zur Entscheidungsfindung zur Laufzeit entfällt. Die daraus resultierende Code-Policy erzielt in 16 Einpersonenspielen von TextArena eine höhere durchschnittliche Belohnung als Gemini-2.5-Pro und GPT-5.2-High. Unsere Ergebnisse zeigen, dass die Synthese einer benutzerdefinierten Code-Harness (oder einer vollständigen Policy) mittels eines kleineren Modells nicht nur kosteneffizienter ist, sondern auch bessere Ergebnisse liefert als der Einsatz deutlich größerer Modelle.