vor 3 Stunden

Zusammenfassung

Trotz erheblicher Fortschritte bei Sprachmodellen in den letzten Jahren neigen solche Modelle, wenn sie als Agenten eingesetzt werden, häufig dazu, Aktionen auszuführen, die nicht nur für einen gegebenen Zustand suboptimal sind, sondern von der externen Umgebung strikt verboten werden. So wurden beispielsweise bei der jüngsten Kaggle GameArena-Schachkompetition 78 % der Niederlagen von Gemini-2.5-Flash auf illegale Züge zurückgeführt. Häufig schreiben Entwickler manuell „Harnesses" (Einschlussprogramme) um LLMs herum, um derartige Fehler zu verhindern. In diesem Beitrag zeigen wir, dass Gemini-2.5-Flash solche Code-Harnesses automatisch synthetisieren kann, und zwar mithilfe einer geringen Anzahl von Iterationsschritten zur Code-Verfeinerung, die auf Rückmeldungen aus der (Spiel-)Umgebung basieren. Der resultierende Harness verhindert in 145 verschiedenen TextArena-Spielen (sowohl Ein- als auch Zweipersonenspiele) sämtliche illegalen Züge und ermöglicht es dem kleineren Modell Gemini-2.5-Flash, größere Modelle wie Gemini-2.5-Pro zu übertreffen. Wenn wir unsere Methode an die Grenzen ihrer Leistungsfähigkeit bringen, kann Gemini-2.5-Flash die gesamte Policy in Code generieren, wodurch der Einsatz des LLM zur Entscheidungsfindung zur Laufzeit entfällt. Die daraus resultierende Code-Policy erzielt in 16 Einpersonenspielen von TextArena eine höhere durchschnittliche Belohnung als Gemini-2.5-Pro und GPT-5.2-High. Unsere Ergebnisse zeigen, dass die Synthese einer benutzerdefinierten Code-Harness (oder einer vollständigen Policy) mittels eines kleineren Modells nicht nur kosteneffizienter ist, sondern auch bessere Ergebnisse liefert als der Einsatz deutlich größerer Modelle.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Stunden

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Stunden

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

AutoHarness: Verbesserung von LLM Agents durch automatische Synthese eines Code Harness

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

AutoHarness: Verbesserung von LLM Agents durch automatische Synthese eines Code Harness

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

AutoHarness: Verbesserung von LLM Agents durch automatische Synthese eines Code Harness

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters