Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 3 Monaten

Paper-URL

2602.11685

Lizenz

MIT

Tags

Finanzen

Medizin

Künstliche Intelligenz

Der DRACO-Benchmark-Datensatz für domänenübergreifende Deep-Learning-Forschung wurde vom Perplexity-Team zur Bewertung komplexer Forschungsaufgaben veröffentlicht. Verwandte Publikationen umfassen… DRACO: Ein domänenübergreifender Benchmark für Genauigkeit, Vollständigkeit und Objektivität in der TiefenforschungZiel ist es, die umfassenden Fähigkeiten von Tiefenforschungssystemen systematisch im Hinblick auf Genauigkeit, Vollständigkeit und Objektivität zu bewerten. Dieser Datensatz umfasst 100 komplexe Forschungsaufgaben aus 40 Ländern und Regionen auf fünf Kontinenten und deckt zehn wichtige Anwendungsbereiche ab, darunter Finanzen, Produktvergleich, Wissenschaft und Technologie. Jede Aufgabe entspricht einem mehrstufigen Informationsabruf- und Analyseproblem mit mehreren Quellen und beinhaltet Bewertungskriterien, die von 26 Fachexperten entwickelt und validiert wurden. Jedes Kriterium umfasst durchschnittlich etwa 40 Bewertungsmetriken und ermöglicht so eine detaillierte Bewertung der Modellergebnisse anhand von vier Dimensionen: faktische Richtigkeit, Breite und Tiefe der Analyse, Qualität der Präsentation und Qualität der Zitation. Die Aufgabenverteilung nach Fachgebiet ist in der folgenden Abbildung dargestellt:

Datenfelder:

ID: Eine eindeutige Kennung für die Aufgabe
Domäne: Die Domäne, zu der die Aufgabe gehört
Problem: Eine vollständige Forschungsanfrage, die eine Antwort erfordert.
Antwort: Die Bewertungskriterien sind im JSON-Format kodiert und enthalten die spezifischen Standards für jede Bewertungsdimension.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 3 Monaten

Paper-URL

2602.11685

Lizenz

MIT

Datenfelder:

ID: Eine eindeutige Kennung für die Aufgabe
Domäne: Die Domäne, zu der die Aufgabe gehört
Problem: Eine vollständige Forschungsanfrage, die eine Antwort erfordert.
Antwort: Die Bewertungskriterien sind im JSON-Format kodiert und enthalten die spezifischen Standards für jede Bewertungsdimension.

Zugehörige Datensätze

MDPBench Multilingual Document Parsing Benchmark Dataset

vor 10 Tagen

Open-RL Inferenzproblem-Datensatz

vor 4 Monaten

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

vor 3 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datenfelder:

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datenfelder:

Zugehörige Datensätze

MDPBench Multilingual Document Parsing Benchmark Dataset

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datenfelder:

Zugehörige Datensätze

MDPBench Multilingual Document Parsing Benchmark Dataset

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MDPBench Multilingual Document Parsing Benchmark Dataset

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz

Zugehörige Datensätze

MDPBench Multilingual Document Parsing Benchmark Dataset

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

CL-bench Context Learning Evaluation Benchmark-Datensatz