Command Palette
Search for a command to run...
DRACO Cross-Domain Deep Research Benchmark-Datensatz
Der DRACO-Benchmark-Datensatz für domänenübergreifende Deep-Learning-Forschung wurde vom Perplexity-Team zur Bewertung komplexer Forschungsaufgaben veröffentlicht. Verwandte Publikationen umfassen… DRACO: Ein domänenübergreifender Benchmark für Genauigkeit, Vollständigkeit und Objektivität in der TiefenforschungZiel ist es, die umfassenden Fähigkeiten von Tiefenforschungssystemen systematisch im Hinblick auf Genauigkeit, Vollständigkeit und Objektivität zu bewerten. Dieser Datensatz umfasst 100 komplexe Forschungsaufgaben aus 40 Ländern und Regionen auf fünf Kontinenten und deckt zehn wichtige Anwendungsbereiche ab, darunter Finanzen, Produktvergleich, Wissenschaft und Technologie. Jede Aufgabe entspricht einem mehrstufigen Informationsabruf- und Analyseproblem mit mehreren Quellen und beinhaltet Bewertungskriterien, die von 26 Fachexperten entwickelt und validiert wurden. Jedes Kriterium umfasst durchschnittlich etwa 40 Bewertungsmetriken und ermöglicht so eine detaillierte Bewertung der Modellergebnisse anhand von vier Dimensionen: faktische Richtigkeit, Breite und Tiefe der Analyse, Qualität der Präsentation und Qualität der Zitation. Die Aufgabenverteilung nach Fachgebiet ist in der folgenden Abbildung dargestellt:

idDie eindeutige Kennung für die Aufgabe.domainDer Bereich, zu dem die Aufgabe gehörtproblemVollständige Forschungsanfrage, die Antworten erfordertanswerDie Bewertungskriterien sind in JSON kodiert und enthalten spezifische Standards für jede Bewertungsdimension.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.