vor 8 Monaten

Zusammenfassung

Tiefe Forschungsagenten (Deep Research Agents) stellen eine bedeutende Kategorie von LLM-basierten Agenten dar. Durch die autonome Koordination von mehrstufiger Webexploration, gezieltem Abruf und hochwertiger Synthese transformieren sie große Mengen an Online-Informationen in Analystenqualität, reich an Zitaten enthaltene Berichte – sie komprimieren Stunden manueller Schreibtischarbeit in Minuten. Ein umfassendes Benchmarking-Verfahren zur systematischen Bewertung der Fähigkeiten dieser Agenten fehlt jedoch bisher. Um diese Lücke zu schließen, präsentieren wir DeepResearch Bench, ein Benchmarking-Set bestehend aus 100 Forschungsaufgaben auf Doktoranden-Niveau, die jeweils sorgfältig von Fachexperten aus 22 verschiedenen Bereichen erstellt wurden.Die Bewertung von DRAs ist inhärent komplex und arbeitsintensiv. Wir schlagen daher zwei innovative Methodologien vor, die eine starke Übereinstimmung mit menschlichem Urteil erreichen. Die erste Methode ist ein referenzbasiertes Verfahren mit adaptiven Kriterien zur Beurteilung der Qualität generierter Forschungsberichte. Das zweite Framework dient der Bewertung der Informationsabruf- und -sammelfähigkeiten des DRA durch die Analyse seiner effektiven Zitatzahl und der gesamten Zitatenakcuratheit. Wir haben DeepResearch Bench sowie die wesentlichen Komponenten dieser Frameworks unter https://github.com/Ayanami0730/deep_research_bench als Open Source veröffentlicht, um die Entwicklung praktischer LLM-basierter Agenten zu beschleunigen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DeepResearch Bench: Eine umfassende Benchmark für Deep Research Agenten

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepResearch Bench: Eine umfassende Benchmark für Deep Research Agenten

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepResearch Bench: Eine umfassende Benchmark für Deep Research Agenten

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters