HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen
Agent
LLM
Benchmarks

Agent = Modell + Umgebung

Neue Forschungsdaten zeigen, dass die Leistung von KI-Agenten weniger von der Qualität des zugrunde liegenden Sprachmodells abhängt, sondern maßgeblich von dessen Umgebung, dem sogenannten Harness. Ein Harness fungiert als Systemebene, die Kontext, Werkzeuge, Zustände, Berechtigungen sowie Fehlerbehebung und Protokollierung verwaltet. Eine aktuelle Studie, bekannt als Harness-Bench, widerlegt die Annahme, dass die Modellarchitektur der alleinige Leistungsbestimmer sei. Bei identischen Aufgaben und demselben Modellbackend führten unterschiedliche Harness-Konfigurationen zu einer Punktdifferenz von fast 24 Punkten. Während das NanoBot-System eine Bewertung von 76,2 erreichte, landete das OpenClaw-System mit nur 52,4 Punkten. Die Analyse der 106 Sandbox-Aufgaben ergab, dass die häufigsten Fehlerquellen nicht auf mangelndes logisches Denken zurückzuführen sind. Über ein Drittel aller gescheiterten Durchläufe beruht auf Vertrags- oder Formatverletzungen, wie etwa unvollständigen JSON-Daten. Zudem führte ein Mangel an automatischer Wiederherstellung bei Tool-Fehlern in einem Viertel der Fälle zum Abbruch. Auch das Nicht-Zusammenführen von Beweisen mit Behauptungen oder das Unterlassen des Speicherns von Ergebnissen waren weit verbreitet. In den meisten Fällen verstand das Modell die Aufgabe und entwickelte plausible Gedanken, scheiterte jedoch daran, diese Gedanken in eine vom System überprüfbare Form zu bringen. Es handelt sich also weniger um ein Intelligenz- denn vielmehr um ein Buchhaltungsproblem, das in der Verantwortung des Harness liegt. Die Autoren definieren diesen Zusammenhang als "Execution Alignment". Dies beschreibt den Grad, in dem der Harness die Verbindung zwischen Absicht und überprüfbarer Fertigstellung aufrechterhält. Wenn diese Verbindung bricht, schwimmt die reasoning (das Denken) frei, während die tatsächlichen Aufgabenkriterien nicht erfüllt werden. Interessanterweise nimmt der Einfluss des Harness ab, je leistungsfähiger das zugrunde liegende Modell wird. Schwache Modelle sind stark von der Qualität ihrer Umgebung abhängig, während leistungsstarke Modelle Unterschiede in der Schnittstelle und im Zustandsmanagement besser tolerieren können. Der Harness wird somit zu einem Krückstock, dessen Wert mit steigender Modellqualität sinkt. Er ist jedoch genau dort am kritischsten, wo das Modell am schwächsten ist. Eine weitere wichtige Erkenntnis ist, dass Einfachheit oft besser funktioniert als Komplexität. Das ultra-leichte NanoBot-System, das mit wenigen Schleifen und wenig Token-Aufwand auskam, erreichte bei konfigurierbaren Aufgaben die höchste Bewertung. Im Gegensatz dazu verbrauchte das schwerere Forschungs-System Hermes zwar mehr Rechenzeit und Tokens, erreichte jedoch eine niedrigere Punktzahl. Die Studie schlussfolgert, dass eine kleine, präzise und gut geführte Arbeitslogik einer großen, aber unübersichtlichen Infrastruktur überlegen ist. Spezialisierte Ansätze wie Codex, die kein konfigurierbares Harness nutzen, konnten sogar noch höhere Punktwerte erzielen, was die Überlegenheit spezialisierter Architekturen vor flexiblen, allgemeinen Systemen unterstreicht. Zusammenfassend lässt sich die Formel Agent = Modell + Harness verallgemeinern, wobei der Harness nicht nur eine technische Hülle ist, sondern die entscheidende Instanz für die Umsetzung von Theorie in praktische Ergebnisse darstellt. Für Entwickler stellt sich daher die Frage, ob sie eine dauerhafte Architektur aufbauen oder nur eine temporäre Stütze für ein Modell schaffen, das in Zukunft seine Abhängigkeit von diesem System verlieren könnte.

Verwandte Links

Agent = Modell + Umgebung | Aktuelle Beiträge | HyperAI