HyperAIHyperAI
il y a 12 jours

WideSearch : Benchmarking de l'information large et agente

Ryan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang
WideSearch : Benchmarking de l'information large et agente
Résumé

Des recherches professionnelles à la planification quotidienne, de nombreuses tâches sont freinées par la recherche d'informations à grande échelle, une activité plus répétitive que cognitivement complexe. Grâce au développement rapide des grands modèles linguistiques (LLM), les agents de recherche automatisés alimentés par ces modèles offrent une solution prometteuse pour libérer les humains de ce travail fastidieux. Toutefois, la capacité de ces agents à effectuer de manière fiable et complète des collectes à « contexte large » reste largement non évaluée en raison du manque de benchmarks adaptés. Pour combler cet écart, nous introduisons WideSearch, un nouveau benchmark conçu pour évaluer la fiabilité des agents dans ces tâches de collecte à grande échelle. Ce benchmark comprend 200 questions soigneusement sélectionnées (100 en anglais, 100 en chinois) issues de plus de 15 domaines diversifiés, fondées sur des requêtes réelles des utilisateurs. Chaque tâche exige que les agents collectent de grandes quantités d'informations atomiques, vérifiables individuellement de manière objective, puis les organiser dans une sortie bien structurée. Une rigoureuse procédure de contrôle qualité en cinq étapes garantit le niveau de difficulté, la complétude et la vérifiabilité de l'ensemble de données. Nous évaluons plus de 10 systèmes d'agents de recherche de pointe, incluant des architectures à agent unique, des cadres multi-agents ainsi que des systèmes commerciaux end-to-end. La plupart des systèmes atteignent des taux de réussite globaux proches de 0 %, le meilleur performer n’atteignant que 5 %. Toutefois, avec un temps suffisant et une validation croisée par plusieurs testeurs humains, un taux de réussite proche de 100 % peut être atteint. Ces résultats démontrent que les agents de recherche actuels présentent des lacunes critiques dans la recherche d'informations à grande échelle, soulignant ainsi des axes urgents de recherche et de développement futurs dans le domaine des agents de recherche. Notre jeu de données, notre pipeline d'évaluation et les résultats du benchmark sont désormais disponibles publiquement à l'adresse suivante : https://widesearch-seed.github.io/