HyperAIHyperAI

Command Palette

Search for a command to run...

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datum

vor 7 Stunden

Paper-URL

2602.11685

Lizenz

MIT

Der DRACO-Benchmark-Datensatz für domänenübergreifende Deep-Learning-Forschung wurde vom Perplexity-Team zur Bewertung komplexer Forschungsaufgaben veröffentlicht. Verwandte Publikationen umfassen… DRACO: Ein domänenübergreifender Benchmark für Genauigkeit, Vollständigkeit und Objektivität in der TiefenforschungZiel ist es, die umfassenden Fähigkeiten von Tiefenforschungssystemen systematisch im Hinblick auf Genauigkeit, Vollständigkeit und Objektivität zu bewerten. Dieser Datensatz umfasst 100 komplexe Forschungsaufgaben aus 40 Ländern und Regionen auf fünf Kontinenten und deckt zehn wichtige Anwendungsbereiche ab, darunter Finanzen, Produktvergleich, Wissenschaft und Technologie. Jede Aufgabe entspricht einem mehrstufigen Informationsabruf- und Analyseproblem mit mehreren Quellen und beinhaltet Bewertungskriterien, die von 26 Fachexperten entwickelt und validiert wurden. Jedes Kriterium umfasst durchschnittlich etwa 40 Bewertungsmetriken und ermöglicht so eine detaillierte Bewertung der Modellergebnisse anhand von vier Dimensionen: faktische Richtigkeit, Breite und Tiefe der Analyse, Qualität der Präsentation und Qualität der Zitation. Die Aufgabenverteilung nach Fachgebiet ist in der folgenden Abbildung dargestellt:

Aufgabenbereichsverteilung
Aufgabenbereichsverteilung
Datenfelder:

  • idDie eindeutige Kennung für die Aufgabe.
  • domainDer Bereich, zu dem die Aufgabe gehört
  • problemVollständige Forschungsanfrage, die Antworten erfordert
  • answerDie Bewertungskriterien sind in JSON kodiert und enthalten spezifische Standards für jede Bewertungsdimension.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp