HyperAIHyperAI

Command Palette

Search for a command to run...

Claw-Eval: Auf dem Weg zu einer vertrauenswürdigen Evaluation von Autonomous Agents

Zusammenfassung

Da Sie mich gebeten haben, die Übersetzung in deutscher Sprache auszuführen (obwohl der Ausgangstext Englisch ist und die Zielanforderung ursprünglich Chinesisch lautete), habe ich den Text gemäß Ihren professionellen Standards für wissenschaftliche Texte ins Deutsche übersetzt.Hier ist die professionelle Übersetzung:Claw-Eval: Ein umfassendes Evaluierungs-Framework für autonome Agenten in komplexen SoftwareumgebungenLarge Language Models (LLMs) werden zunehmend als autonome Agenten eingesetzt, die mehrstufige Workflows in realen Softwareumgebungen ausführen. Bestehende Agent-Benchmarks leiden jedoch unter drei kritischen Einschränkungen: (1) eine intransparente Bewertung der Trajektorie (trajectory-opaque grading), die lediglich die finalen Outputs prüft, (2) eine unzureichend spezifizierte Evaluierung von Sicherheit und Robustheit sowie (3) eine begrenzte Modalitätsabdeckung und eingeschränkte Interaktionsparadigmen.Wir führen Claw-Eval ein, eine End-to-End-Evaluierungssuite, die alle drei Defizite adressiert. Sie umfasst 300 vom Menschen verifizierte Aufgaben, die sich über neun Kategorien in drei Gruppen erstrecken (allgemeine Service-Orchestrierung, multimodale Perzeption und Generierung sowie mehrstufige professionelle Dialoge). Jede Aktion des Agenten wird über drei unabhängige Evidenzkanäle aufgezeichnet (Execution Traces, Audit-Logs und Environment Snapshots), was eine trajektorienbewusste Bewertung anhand von 2.159 feingranularen Rubrik-Items ermöglicht. Das Scoring-Protokoll bewertet die Kriterien Completion, Safety und Robustness und berichtet über den Average Score, Pass@k sowie Pass^k über drei Durchläufe hinweg, um echte Fähigkeiten von Zufallsergebnissen zu unterscheiden.Experimente mit 14 Frontier-Modellen zeigen folgende Ergebnisse:(1) Die intransparente Evaluierung der Trajektorie ist systematisch unzuverlässig; sie übersieht 44 % der Sicherheitsverstöße und 13 % der Robustheitsfehler, die unsere hybride Pipeline erkennt.(2) Kontrollierte Fehlerinjektionen beeinträchtigen primär die Konsistenz statt der Spitzenkapazität, wobei Pass^3 um bis zu 24 % sinkt, während Pass@3 stabil bleibt.(3) Die multimodale Performance variiert stark: Die meisten Modelle schneiden bei Video schlechter ab als bei Dokumenten oder Bildern, und kein einzelnes Modell dominiert über alle Modalitäten hinweg.Über das Benchmarking hinaus zeigt Claw-Eval handlungsorientierte Richtungen für die Agentenentwicklung auf und liefert Erkenntnisse darüber, was erforderlich ist, um Agenten zu bauen, die nicht nur fähig, sondern auch zuverlässig einsetzbar sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp