@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

Datum

in 3 Stunden

Organisation

Paper-URL

2604.06132

Lizenz

MIT

Zusammensetzung des Datensatzes:

Allgemein: Enthält 161 Kernaufgaben für Agenten, die 24 Kategorien abdecken, darunter Kommunikation, Finanzen, Betrieb und Büroproduktivität.
Multimodal: Beinhaltet 101 multimodale Agentenaufgaben, die Szenarien wie Webseitengenerierung, Video-Fragebeantwortung und Dokumenteninformationsextraktion abdecken.
Mehrrunden-Dialog: Dieser Abschnitt enthält 38 Mehrrunden-Dialogaufgaben, bei denen der Agent in mehreren Runden mit simulierten Benutzern interagieren muss, um Bedürfnisse zu klären und Vorschläge zu generieren.

Datenfelder:

task_id: Eindeutige Kennung für die Aufgabe
Anfrage: Aufgabenanweisungen oder Aufgabenbeschreibung
Vorrichtung: Liste der für die Aufgabe benötigten Hilfsdateien
Sprache: Aufgabensprache
Kategorie: Der Bereich oder die Kategorie, zu der die Aufgabe gehört

Zitat

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Datum

in 3 Stunden

Organisation

Paper-URL

2604.06132

Lizenz

MIT

Zusammensetzung des Datensatzes:

Allgemein: Enthält 161 Kernaufgaben für Agenten, die 24 Kategorien abdecken, darunter Kommunikation, Finanzen, Betrieb und Büroproduktivität.
Multimodal: Beinhaltet 101 multimodale Agentenaufgaben, die Szenarien wie Webseitengenerierung, Video-Fragebeantwortung und Dokumenteninformationsextraktion abdecken.
Mehrrunden-Dialog: Dieser Abschnitt enthält 38 Mehrrunden-Dialogaufgaben, bei denen der Agent in mehreren Runden mit simulierten Benutzern interagieren muss, um Bedürfnisse zu klären und Vorschläge zu generieren.

Datenfelder:

task_id: Eindeutige Kennung für die Aufgabe
Anfrage: Aufgabenanweisungen oder Aufgabenbeschreibung
Vorrichtung: Liste der für die Aufgabe benötigten Hilfsdateien
Sprache: Aufgabensprache
Kategorie: Der Bereich oder die Kategorie, zu der die Aufgabe gehört

Zitat

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

Zugehörige Datensätze

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

in 4 Stunden

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

in 5 Stunden

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

in 5 Stunden

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

in 3 Stunden

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

in 3 Stunden

PanScale Remote Sensing Pancolor Sharpening Dataset

vor 5 Tagen

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

vor 7 Tagen

OpenMementos Kontextspeicher Komprimierter Datensatz

vor 7 Tagen

MIA-Datensatz Für Mehrstufige Inferenz Und Entscheidungstrajektorien

vor 15 Tagen

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

vor 20 Tagen

MDPBench Multilingual Document Parsing Benchmark Dataset

vor 20 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Claw-Eval Real-World Benchmark Dataset

Zusammensetzung des Datensatzes:

Datenfelder:

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claw-Eval Real-World Benchmark Dataset

Zusammensetzung des Datensatzes:

Datenfelder:

Zitat

Zugehörige Datensätze

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

MIA-Datensatz Für Mehrstufige Inferenz Und Entscheidungstrajektorien

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claw-Eval Real-World Benchmark Dataset

Zusammensetzung des Datensatzes:

Datenfelder:

Zitat

Zugehörige Datensätze

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

MIA-Datensatz Für Mehrstufige Inferenz Und Entscheidungstrajektorien

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

MIA-Datensatz Für Mehrstufige Inferenz Und Entscheidungstrajektorien

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset

Zugehörige Datensätze

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

PanScale Remote Sensing Pancolor Sharpening Dataset

ParseBench-Dokumentparsing-Fähigkeitsbewertungsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

MIA-Datensatz Für Mehrstufige Inferenz Und Entscheidungstrajektorien

OmniParsingBench Multimodal Parsing Capability Evaluation Dataset

MDPBench Multilingual Document Parsing Benchmark Dataset