HyperAIHyperAI

Command Palette

Search for a command to run...

WebWatcher : Ouvrir de nouveaux horizons pour l'agent de recherche profonde vision-langage

Résumé

Des agents web tels que Deep Research ont démontré des capacités cognitives supérieures à celles de l’humain, capables de résoudre des problèmes d’information particulièrement complexes. Toutefois, la plupart des recherches restent principalement centrées sur le texte, négligeant l’information visuelle présente dans le monde réel. Cela rend la recherche approfondie multimodale particulièrement difficile, car ces agents doivent faire preuve de capacités de raisonnement bien plus fortes en perception, logique, connaissance et utilisation d’outils plus sophistiqués que leurs homologues basés uniquement sur le texte. Pour remédier à cette limitation, nous introduisons WebWatcher, un agent multimodal conçu pour la recherche approfondie, doté de capacités renforcées de raisonnement visuel-langagier. Il exploite des trajectoires multimodales synthétiques de haute qualité pour une formation efficace dès le départ (cold start), utilise divers outils pour une raison approfondie, et améliore encore sa généralisation grâce à l’apprentissage par renforcement. Afin d’évaluer plus précisément les capacités des agents multimodaux, nous proposons BrowseComp-VL, un benchmark inspiré de BrowseComp, exigeant une récupération d’information complexe combinant à la fois des éléments visuels et textuels. Les résultats expérimentaux montrent que WebWatcher surpasse significativement les modèles propriétaires de référence, les workflows RAG et les agents open source sur quatre défis difficiles de question-réponse visuelle (VQA), ouvrant ainsi la voie à la résolution de tâches complexes de recherche d’information multimodale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp