HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben

DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben

Abstract

Tiefe Forschungsagenten haben zunehmend Aufmerksamkeit erregt, da sie das Potenzial besitzen, komplexe, mehrstufige Forschungsworkflows zu koordinieren – von der Literatursynthese über die methodische Gestaltung bis hin zur empirischen Überprüfung. Trotz dieser Fortschritte ist die zuverlässige Bewertung ihrer Forschungsfähigkeiten jedoch äußerst herausfordernd, da die Sammlung von aktuellsten Forschungsfragen, die echtes Forschungsinteresse und intellektuelle Neugier widerspiegeln, schwierig ist. Um diese Lücke zu schließen, stellen wir DeepResearch Arena vor – einen Benchmark, der auf akademischen Seminaren basiert und reichhaltige Expertendiskussionen sowie Interaktionen erfasst. Dadurch wird ein realistischerer Forschungskontext abgebildet und das Risiko von Datenlecks deutlich reduziert. Zur automatischen Erstellung von DeepResearch Arena entwickeln wir ein Multi-Agenten-Hierarchisches Aufgaben-Generierungssystem (MAHTG), das aus Seminarprotokollen Forschungsideen mit hohem Potenzial extrahiert. Das MAHTG-System übersetzt diese Forschungsideen anschließend in hochwertige Forschungsaufgaben, wodurch die Nachvollziehbarkeit der Aufgabenformulierung gewährleistet und Rauschen effektiv eliminiert wird. Mit Hilfe des MAHTG-Systems haben wir DeepResearch Arena mit über 10.000 hochwertigen Forschungsaufgaben aus mehr als 200 akademischen Seminaren aus 12 Disziplinen – darunter Literatur, Geschichte und Naturwissenschaften – zusammengestellt. Unsere umfassende Evaluation zeigt, dass DeepResearch Arena erhebliche Herausforderungen für derzeitige State-of-the-Art-Agenten darstellt, wobei sich deutliche Leistungsunterschiede zwischen den verschiedenen Modellen nachweisen lassen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben | Forschungsarbeiten | HyperAI