Command Palette
Search for a command to run...
DeepResearch Arena : Le premier examen des capacités de recherche des modèles linguistiques à grande échelle au travers de tâches fondées sur des séminaires

Résumé
Les agents de recherche approfondie ont suscité un intérêt croissant en raison de leur potentiel à orchestrer des workflows de recherche multi-étapes, couvrant la synthèse de la littérature, la conception méthodologique et la vérification empirique. Malgré ces progrès, évaluer fidèlement leur capacité de recherche reste un défi considérable, en raison de la difficulté à recueillir des questions de recherche de pointe qui reflètent véritablement l’attention et la curiosité intellectuelle des chercheurs. Pour combler cette lacune, nous introduisons DeepResearch Arena, un benchmark fondé sur des séminaires académiques qui captent un riche discours et une interaction experte, offrant ainsi une représentation plus fidèle des environnements de recherche réels tout en réduisant le risque de fuite de données. Pour construire automatiquement DeepResearch Arena, nous proposons un système de génération hiérarchique de tâches par agents multiples (MAHTG), capable d’extraire des inspirations pertinentes pour la recherche à partir de transcriptions de séminaires. Ce système traduit ensuite ces inspirations en tâches de recherche de haute qualité, garantissant la traçabilité de la formulation des tâches tout en éliminant le bruit. Grâce au système MAHTG, nous avons constitué DeepResearch Arena avec plus de 10 000 tâches de recherche de haute qualité issues de plus de 200 séminaires académiques, couvrant 12 disciplines telles que la littérature, l’histoire et les sciences. Nos évaluations approfondies montrent que DeepResearch Arena pose des défis substantiels aux agents de pointe actuels, avec des écarts de performance clairement observés entre différents modèles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.