HyperAIHyperAI

Command Palette

Search for a command to run...

DeepResearch Bench : Un Benchmark Complet pour les Agents de Recherche Approfondie

Mingxuan Du Benfeng Xu Chiwei Zhu Xiaorui Wang Zhendong Mao

Résumé

Les Agents de Recherche Profonde constituent une catégorie importante d'agents basés sur les grands modèles linguistiques (LLM). En orchestrant de manière autonome des explorations web en plusieurs étapes, des récupérations ciblées et des synthèses d'ordre supérieur, ils transforment de vastes quantités d'informations en ligne en rapports d'analyse de haut niveau, riches en citations, réduisant ainsi des heures de recherche manuelle à quelques minutes. Cependant, un benchmark complet pour évaluer systématiquement les capacités de ces agents fait toujours défaut. Pour combler cette lacune, nous présentons DeepResearch Bench, un benchmark composé de 100 tâches de recherche au niveau doctorat, chacune soigneusement élaborée par des experts du domaine dans 22 disciplines distinctes.L'évaluation des Agents de Recherche Profonde est intrinsèquement complexe et exigeante. Nous proposons donc deux nouvelles méthodologies qui atteignent une forte adéquation avec le jugement humain. La première est une méthode basée sur des références avec des critères adaptatifs pour évaluer la qualité des rapports de recherche générés. Le second cadre vise à évaluer les capacités de récupération et de collecte d'informations des Agents de Recherche Profonde en mesurant leur nombre effectif de citations et la précision globale des citations. Nous avons rendu DeepResearch Bench et les composants clés de ces cadres open source sur https://github.com/Ayanami0730/deep_research_bench afin d'accélérer le développement d'agents basés sur les grands modèles linguistiques pratiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepResearch Bench : Un Benchmark Complet pour les Agents de Recherche Approfondie | Articles | HyperAI