il y a 11 jours

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Voir les détails de l'article

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Résumé

Des agents web tels que Deep Research ont démontré des capacités cognitives supérieures à celles de l’humain, capables de résoudre des problèmes d’information particulièrement complexes. Toutefois, la plupart des recherches restent principalement centrées sur le texte, négligeant l’information visuelle présente dans le monde réel. Cela rend la recherche approfondie multimodale particulièrement difficile, car ces agents doivent faire preuve de capacités de raisonnement bien plus fortes en perception, logique, connaissance et utilisation d’outils plus sophistiqués que leurs homologues basés uniquement sur le texte. Pour remédier à cette limitation, nous introduisons WebWatcher, un agent multimodal conçu pour la recherche approfondie, doté de capacités renforcées de raisonnement visuel-langagier. Il exploite des trajectoires multimodales synthétiques de haute qualité pour une formation efficace dès le départ (cold start), utilise divers outils pour une raison approfondie, et améliore encore sa généralisation grâce à l’apprentissage par renforcement. Afin d’évaluer plus précisément les capacités des agents multimodaux, nous proposons BrowseComp-VL, un benchmark inspiré de BrowseComp, exigeant une récupération d’information complexe combinant à la fois des éléments visuels et textuels. Les résultats expérimentaux montrent que WebWatcher surpasse significativement les modèles propriétaires de référence, les workflows RAG et les agents open source sur quatre défis difficiles de question-réponse visuelle (VQA), ouvrant ainsi la voie à la résolution de tâches complexes de recherche d’information multimodale.