HyperAI

Zusammenfassung

Da Sie mich gebeten haben, die Übersetzung in deutscher Sprache auszuführen (obwohl der Ausgangstext Englisch ist und die Zielanforderung ursprünglich Chinesisch lautete), habe ich den Text gemäß Ihren professionellen Standards für wissenschaftliche Texte ins Deutsche übersetzt.Hier ist die professionelle Übersetzung:Claw-Eval: Ein umfassendes Evaluierungs-Framework für autonome Agenten in komplexen SoftwareumgebungenLarge Language Models (LLMs) werden zunehmend als autonome Agenten eingesetzt, die mehrstufige Workflows in realen Softwareumgebungen ausführen. Bestehende Agent-Benchmarks leiden jedoch unter drei kritischen Einschränkungen: (1) eine intransparente Bewertung der Trajektorie (trajectory-opaque grading), die lediglich die finalen Outputs prüft, (2) eine unzureichend spezifizierte Evaluierung von Sicherheit und Robustheit sowie (3) eine begrenzte Modalitätsabdeckung und eingeschränkte Interaktionsparadigmen.Wir führen Claw-Eval ein, eine End-to-End-Evaluierungssuite, die alle drei Defizite adressiert. Sie umfasst 300 vom Menschen verifizierte Aufgaben, die sich über neun Kategorien in drei Gruppen erstrecken (allgemeine Service-Orchestrierung, multimodale Perzeption und Generierung sowie mehrstufige professionelle Dialoge). Jede Aktion des Agenten wird über drei unabhängige Evidenzkanäle aufgezeichnet (Execution Traces, Audit-Logs und Environment Snapshots), was eine trajektorienbewusste Bewertung anhand von 2.159 feingranularen Rubrik-Items ermöglicht. Das Scoring-Protokoll bewertet die Kriterien Completion, Safety und Robustness und berichtet über den Average Score, Pass@k sowie Pass^k über drei Durchläufe hinweg, um echte Fähigkeiten von Zufallsergebnissen zu unterscheiden.Experimente mit 14 Frontier-Modellen zeigen folgende Ergebnisse:(1) Die intransparente Evaluierung der Trajektorie ist systematisch unzuverlässig; sie übersieht 44 % der Sicherheitsverstöße und 13 % der Robustheitsfehler, die unsere hybride Pipeline erkennt.(2) Kontrollierte Fehlerinjektionen beeinträchtigen primär die Konsistenz statt der Spitzenkapazität, wobei Pass^3 um bis zu 24 % sinkt, während Pass@3 stabil bleibt.(3) Die multimodale Performance variiert stark: Die meisten Modelle schneiden bei Video schlechter ab als bei Dokumenten oder Bildern, und kein einzelnes Modell dominiert über alle Modalitäten hinweg.Über das Benchmarking hinaus zeigt Claw-Eval handlungsorientierte Richtungen für die Agentenentwicklung auf und liefert Erkenntnisse darüber, was erforderlich ist, um Agenten zu bauen, die nicht nur fähig, sondern auch zuverlässig einsetzbar sind.

Zusammenfassung

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claw-Eval: Auf dem Weg zu einer vertrauenswürdigen Evaluation von Autonomous Agents

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claw-Eval: Auf dem Weg zu einer vertrauenswürdigen Evaluation von Autonomous Agents

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claw-Eval: Auf dem Weg zu einer vertrauenswürdigen Evaluation von Autonomous Agents

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong

Bowen Ye Rang Li Qibin Yang Yuanxin Liu Linli Yao Hanglong Lv Zhihui Xie Chenxin An Lei Li Lingpeng Kong