WebSailor : Navigation de la Raison Supra-humaine pour un Agent Web

Dépasser les limites cognitives humaines représente une frontière critique dans l'entraînement des modèles de langage à grande échelle (LLM). Des systèmes propriétaires d'agence comme DeepResearch ont démontré des capacités surhumaines sur des benchmarks d'exploration d'informations extrêmement complexes tels que BrowseComp, un exploit jusqu'alors inatteignable. Nous soutenons que leur succès repose sur un modèle de raisonnement sophistiqué qui fait défaut aux modèles open source : la capacité de réduire systématiquement l'incertitude extrême lors de la navigation dans des paysages d'information vastes. À partir de cette constatation, nous présentons WebSailor, une méthodologie complète post-entraînement conçue pour inculquer cette capacité cruciale. Notre approche consiste à générer des tâches nouvelles et à forte incertitude par le biais d'échantillonnage structuré et d'obfuscation d'informations, ainsi qu'à utiliser un démarrage froid RFT et un algorithme d'apprentissage par renforcement agencique efficace, l'Optimisation de la Politique par Échantillonnage Dupliqué (DUPO). Grâce à ce pipeline intégré, WebSailor surpasse considérablement tous les agents open source dans les tâches complexes d'exploration d'informations, égalant les performances des agents propriétaires et comblant le fossé en termes de capacités.