vor 5 Monaten

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang

Zusammenfassung

Tiefe Forschungsagenten haben zunehmend Aufmerksamkeit erregt, da sie das Potenzial besitzen, komplexe, mehrstufige Forschungsworkflows zu koordinieren – von der Literatursynthese über die methodische Gestaltung bis hin zur empirischen Überprüfung. Trotz dieser Fortschritte ist die zuverlässige Bewertung ihrer Forschungsfähigkeiten jedoch äußerst herausfordernd, da die Sammlung von aktuellsten Forschungsfragen, die echtes Forschungsinteresse und intellektuelle Neugier widerspiegeln, schwierig ist. Um diese Lücke zu schließen, stellen wir DeepResearch Arena vor – einen Benchmark, der auf akademischen Seminaren basiert und reichhaltige Expertendiskussionen sowie Interaktionen erfasst. Dadurch wird ein realistischerer Forschungskontext abgebildet und das Risiko von Datenlecks deutlich reduziert. Zur automatischen Erstellung von DeepResearch Arena entwickeln wir ein Multi-Agenten-Hierarchisches Aufgaben-Generierungssystem (MAHTG), das aus Seminarprotokollen Forschungsideen mit hohem Potenzial extrahiert. Das MAHTG-System übersetzt diese Forschungsideen anschließend in hochwertige Forschungsaufgaben, wodurch die Nachvollziehbarkeit der Aufgabenformulierung gewährleistet und Rauschen effektiv eliminiert wird. Mit Hilfe des MAHTG-Systems haben wir DeepResearch Arena mit über 10.000 hochwertigen Forschungsaufgaben aus mehr als 200 akademischen Seminaren aus 12 Disziplinen – darunter Literatur, Geschichte und Naturwissenschaften – zusammengestellt. Unsere umfassende Evaluation zeigt, dass DeepResearch Arena erhebliche Herausforderungen für derzeitige State-of-the-Art-Agenten darstellt, wobei sich deutliche Leistungsunterschiede zwischen den verschiedenen Modellen nachweisen lassen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepResearch Arena: Der erste Test der Forschungsfähigkeiten von LLMs anhand von seminarbasierten Aufgaben

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang

Haiyuan Wan Chen Yang Junchi Yu Meiqi Tu Jiaxuan Lu Di Yu Jianbao Cao Ben Gao Jiaqing Xie Aoran Wang