HyperAIHyperAI

Command Palette

Search for a command to run...

Claw-Eval Real-World Benchmark Dataset

Datum

in 3 Stunden

Organisation

The University of Hong Kong

Paper-URL

2604.06132

Lizenz

MIT

Claw-Eval ist ein durchgängig transparenter Benchmark-Datensatz zur Evaluierung von KI-Agenten anhand realer Aufgaben. Er wurde 2026 von der Peking-Universität in Zusammenarbeit mit der Universität Hongkong veröffentlicht. Die zugehörigen Forschungsarbeiten sind: Claw-Eval: Auf dem Weg zu einer vertrauenswürdigen Bewertung autonomer AgentenZiel ist die Bewertung der Fähigkeit autonomer intelligenter Agenten, Aufgaben auszuführen, Werkzeuge aufzurufen, multimodale Phänomene zu verstehen und in realen Umgebungen zu interagieren. Es findet breite Anwendung in der Evaluierung von Agentensystemen, der automatisierten Aufgabenausführung, der Forschung zu multimodalen intelligenten Agenten und der Analyse der Leistungsfähigkeit großer Modelle. Dieser Datensatz unterstützt sowohl die englische als auch die chinesische Sprache und umfasst drei Kernaufgabengruppen: Allgemein, Multimodal und Mehrrundenaufgaben. Insgesamt werden 24 Aufgabenkategorien wie Kommunikation, Finanzen, Büro und Produktivitätstools abgedeckt.

Zusammensetzung des Datensatzes:

  • Allgemein: Enthält 161 Kernaufgaben für Agenten, die 24 Kategorien abdecken, darunter Kommunikation, Finanzen, Betrieb und Büroproduktivität.
  • Multimodal: Beinhaltet 101 multimodale Agentenaufgaben, die Szenarien wie Webseitengenerierung, Video-Fragebeantwortung und Dokumenteninformationsextraktion abdecken.
  • Mehrrunden-Dialog: Dieser Abschnitt enthält 38 Mehrrunden-Dialogaufgaben, bei denen der Agent in mehreren Runden mit simulierten Benutzern interagieren muss, um Bedürfnisse zu klären und Vorschläge zu generieren.

Datenfelder:

  • task_id: Eindeutige Kennung für die Aufgabe
  • Anfrage: Aufgabenanweisungen oder Aufgabenbeschreibung
  • Vorrichtung: Liste der für die Aufgabe benötigten Hilfsdateien
  • Sprache: Aufgabensprache
  • Kategorie: Der Bereich oder die Kategorie, zu der die Aufgabe gehört

Zitat

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp