Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2508.07999

Lizenz

Other

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

WideSearch ist der erste Benchmark-Datensatz zur Agentenbewertung, der für die „breite Informationssuche“ entwickelt wurde und 2025 vom Seed-Team von ByteDance veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:WideSearch:Benchmarking Agentic Broad Info-Seeking“, dessen Ziel es ist, die Zuverlässigkeit und Integrität großer Sprachmodelle bei der groß angelegten Faktensammlung, Synthese und überprüfbaren strukturierten Ausgabe systematisch zu bewerten und zu fördern. Der Benchmark besteht aus 200 hochwertigen Fragen (100 englische und 100 chinesische Fragen), die vom Forschungsteam sorgfältig ausgewählt und manuell aus echten Benutzeranfragen bereinigt wurden. Diese Fragen stammen aus mehr als 15 verschiedenen Bereichen.

Datenfelder:

instance_id: eindeutige ID der Aufgabe (entsprechend dem Namen der Gold-CSV-Datei).
Abfrage: Eine Anweisung in natürlicher Sprache, die normalerweise die erforderlichen Spaltennamen und Anforderungen für die Markdown-Tabellenausgabe angibt.
Auswertung: ein serialisiertes (String-)Objekt, das für die automatische Auswertung verwendet wird und Folgendes enthält:

unique_columns: Primärschlüsselspalten (für die Zeilenausrichtung);
erforderlich: Spaltenname, der angezeigt werden muss;
eval_pipeline: Auswertungskonfiguration auf Spaltenebene (z. B. Vorverarbeitung, Metrik, Kriterium).

Sprache: Aufgabensprache, der Wert kann en oder zh sein.
Flussdiagramm zur Datenkonstruktion und automatischen Auswertung

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2508.07999

Lizenz

Other

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Datenfelder:

instance_id: eindeutige ID der Aufgabe (entsprechend dem Namen der Gold-CSV-Datei).
Abfrage: Eine Anweisung in natürlicher Sprache, die normalerweise die erforderlichen Spaltennamen und Anforderungen für die Markdown-Tabellenausgabe angibt.
Auswertung: ein serialisiertes (String-)Objekt, das für die automatische Auswertung verwendet wird und Folgendes enthält:

unique_columns: Primärschlüsselspalten (für die Zeilenausrichtung);
erforderlich: Spaltenname, der angezeigt werden muss;
eval_pipeline: Auswertungskonfiguration auf Spaltenebene (z. B. Vorverarbeitung, Metrik, Kriterium).

Sprache: Aufgabensprache, der Wert kann en oder zh sein.
Flussdiagramm zur Datenkonstruktion und automatischen Auswertung

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

vor 3 Monaten

Sutra 10B Vortrainings- Und Trainingsdatensatz

vor 3 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

RoVid-X-Roboter-Videogenerierungsdatensatz

vor 2 Monaten

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

TxT360-3efforts Multi-Task Inference Dataset

vor 6 Monaten

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

WideSearch-Benchmark-Datensatz Zur Informationserfassung

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Datenfelder:

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WideSearch-Benchmark-Datensatz Zur Informationserfassung

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Datenfelder:

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

Sutra 10B Vortrainings- Und Trainingsdatensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WideSearch-Benchmark-Datensatz Zur Informationserfassung

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Datenfelder:

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

Sutra 10B Vortrainings- Und Trainingsdatensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

Sutra 10B Vortrainings- Und Trainingsdatensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

Datensatz Für Kreative Aufgabenanweisungen Für Kreativprofis

Sutra 10B Vortrainings- Und Trainingsdatensatz

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset