HyperAIHyperAI

Command Palette

Search for a command to run...

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datum

vor einem Monat

Paper-URL

2602.11685

Lizenz

MIT

Der DRACO-Benchmark-Datensatz für domänenübergreifende Deep-Learning-Forschung wurde vom Perplexity-Team zur Bewertung komplexer Forschungsaufgaben veröffentlicht. Verwandte Publikationen umfassen… DRACO: Ein domänenübergreifender Benchmark für Genauigkeit, Vollständigkeit und Objektivität in der TiefenforschungZiel ist es, die umfassenden Fähigkeiten von Tiefenforschungssystemen systematisch im Hinblick auf Genauigkeit, Vollständigkeit und Objektivität zu bewerten. Dieser Datensatz umfasst 100 komplexe Forschungsaufgaben aus 40 Ländern und Regionen auf fünf Kontinenten und deckt zehn wichtige Anwendungsbereiche ab, darunter Finanzen, Produktvergleich, Wissenschaft und Technologie. Jede Aufgabe entspricht einem mehrstufigen Informationsabruf- und Analyseproblem mit mehreren Quellen und beinhaltet Bewertungskriterien, die von 26 Fachexperten entwickelt und validiert wurden. Jedes Kriterium umfasst durchschnittlich etwa 40 Bewertungsmetriken und ermöglicht so eine detaillierte Bewertung der Modellergebnisse anhand von vier Dimensionen: faktische Richtigkeit, Breite und Tiefe der Analyse, Qualität der Präsentation und Qualität der Zitation. Die Aufgabenverteilung nach Fachgebiet ist in der folgenden Abbildung dargestellt:

Aufgabenbereichsverteilung
Aufgabenbereichsverteilung

Datenfelder:

  • ID: Eine eindeutige Kennung für die Aufgabe
  • Domäne: Die Domäne, zu der die Aufgabe gehört
  • Problem: Eine vollständige Forschungsanfrage, die eine Antwort erfordert.
  • Antwort: Die Bewertungskriterien sind im JSON-Format kodiert und enthalten die spezifischen Standards für jede Bewertungsdimension.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp