HyperAIHyperAI

Command Palette

Search for a command to run...

WebSailor : Navigation de la Raison Supra-humaine pour un Agent Web

Résumé

Dépasser les limites cognitives humaines représente une frontière critique dans l'entraînement des modèles de langage à grande échelle (LLM). Des systèmes propriétaires d'agence comme DeepResearch ont démontré des capacités surhumaines sur des benchmarks d'exploration d'informations extrêmement complexes tels que BrowseComp, un exploit jusqu'alors inatteignable. Nous soutenons que leur succès repose sur un modèle de raisonnement sophistiqué qui fait défaut aux modèles open source : la capacité de réduire systématiquement l'incertitude extrême lors de la navigation dans des paysages d'information vastes. À partir de cette constatation, nous présentons WebSailor, une méthodologie complète post-entraînement conçue pour inculquer cette capacité cruciale. Notre approche consiste à générer des tâches nouvelles et à forte incertitude par le biais d'échantillonnage structuré et d'obfuscation d'informations, ainsi qu'à utiliser un démarrage froid RFT et un algorithme d'apprentissage par renforcement agencique efficace, l'Optimisation de la Politique par Échantillonnage Dupliqué (DUPO). Grâce à ce pipeline intégré, WebSailor surpasse considérablement tous les agents open source dans les tâches complexes d'exploration d'informations, égalant les performances des agents propriétaires et comblant le fossé en termes de capacités.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
WebSailor : Navigation de la Raison Supra-humaine pour un Agent Web | Articles | HyperAI