Command Palette
Search for a command to run...
WebExplorer : Explorer et évoluer pour former des agents web à horizon long

Résumé
Le paradigme des grands modèles linguistiques (LLM) s’est progressivement orienté vers des applications agencées, dans lesquelles la capacité de navigation sur le web constitue un élément fondamental pour l’extraction d’informations provenant de sources en ligne diverses. Toutefois, les agents web open-source existants présentent soit des capacités limitées à rechercher des informations dans des tâches complexes, soit une implémentation peu transparente. Dans ce travail, nous identifions que le principal défi réside dans le manque de données exigeantes pour la recherche d’information. Pour surmonter cette limitation, nous proposons WebExplorer : une approche systématique de génération de données basée sur une exploration modélisée et une évolution itérative, de long à court, des requêtes. Cette méthode permet de créer des paires requête-réponse exigeantes, nécessitant une raisonnement multi-étapes et une navigation web complexe. En exploitant notre jeu de données soigneusement sélectionné de haute qualité, nous avons réussi à développer un agent web avancé, WebExplorer-8B, par une fine-tuning supervisée suivie d’un apprentissage par renforcement. Notre modèle prend en charge une longueur de contexte de 128K et jusqu’à 100 appels d’outils, ce qui permet de résoudre des problèmes à horizon long. Sur diverses évaluations de recherche d’information, WebExplorer-8B atteint des performances de pointe pour sa taille. Notamment, en tant que modèle de 8 milliards de paramètres, WebExplorer-8B parvient à effectuer une recherche efficace sur une moyenne de 16 étapes après l’entraînement par renforcement, obtenant une précision supérieure à celle de WebSailor-72B sur les benchmarks BrowseComp-en/zh, et réalisant les meilleurs résultats parmi les modèles jusqu’à 100 milliards de paramètres sur WebWalkerQA et FRAMES. Au-delà de ces tâches de recherche d’information, notre modèle montre également une forte généralisation sur le benchmark HLE, bien qu’il n’ait été entraîné que sur des données de questions-réponses à forte intensité de connaissance. Ces résultats mettent en évidence notre approche comme une voie concrète vers la mise au point d’agents web à horizon long.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.