DeepResearch Bench : Un Benchmark Complet pour les Agents de Recherche Approfondie

Les Agents de Recherche Profonde constituent une catégorie importante d'agents basés sur les grands modèles linguistiques (LLM). En orchestrant de manière autonome des explorations web en plusieurs étapes, des récupérations ciblées et des synthèses d'ordre supérieur, ils transforment de vastes quantités d'informations en ligne en rapports d'analyse de haut niveau, riches en citations, réduisant ainsi des heures de recherche manuelle à quelques minutes. Cependant, un benchmark complet pour évaluer systématiquement les capacités de ces agents fait toujours défaut. Pour combler cette lacune, nous présentons DeepResearch Bench, un benchmark composé de 100 tâches de recherche au niveau doctorat, chacune soigneusement élaborée par des experts du domaine dans 22 disciplines distinctes.L'évaluation des Agents de Recherche Profonde est intrinsèquement complexe et exigeante. Nous proposons donc deux nouvelles méthodologies qui atteignent une forte adéquation avec le jugement humain. La première est une méthode basée sur des références avec des critères adaptatifs pour évaluer la qualité des rapports de recherche générés. Le second cadre vise à évaluer les capacités de récupération et de collecte d'informations des Agents de Recherche Profonde en mesurant leur nombre effectif de citations et la précision globale des citations. Nous avons rendu DeepResearch Bench et les composants clés de ces cadres open source sur https://github.com/Ayanami0730/deep_research_bench afin d'accélérer le développement d'agents basés sur les grands modèles linguistiques pratiques.