HyperAIHyperAI
il y a 11 jours

Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu
Au-delà de dix tours : déverrouiller la recherche agente à long terme grâce à un apprentissage par renforcement asynchrone à grande échelle
Résumé

Les avancées récentes des agents fondés sur les grands modèles linguistiques (LLM) ont démontré des capacités remarquables dans la gestion de tâches complexes et intensives en connaissances, en intégrant des outils externes. Parmi les divers outils disponibles, les outils de recherche jouent un rôle central dans l'accès à de vastes connaissances externes. Toutefois, les agents open source peinent encore à atteindre un niveau d’intelligence de recherche experte — c’est-à-dire la capacité à traiter des requêtes ambigües, à formuler des recherches précises, à analyser les résultats et à mener des explorations approfondies. Les approches existantes présentent des limites en matière d’évolutivité, d’efficacité et de qualité des données. Par exemple, les limites de nombre de tours faibles dans les méthodes de renforcement par apprentissage en ligne (online RL), par exemple ≤10, restreignent l’apprentissage de stratégies complexes. Ce papier présente ASearcher, un projet open source dédié à l’entraînement à grande échelle d’agents de recherche par renforcement par apprentissage. Nos contributions principales sont les suivantes : (1) un entraînement entièrement asynchrone à grande échelle, permettant des recherches à horizon long tout en maintenant une haute efficacité d’entraînement ; (2) un agent LLM basé sur des prompts, capable d’auto-synthétiser de grandes quantités de paires question-réponse (Q&A) de haute qualité et de difficulté élevée, générant ainsi un vaste jeu de données Q&A. Grâce à l’entraînement par renforcement, notre agent QwQ-32B basé sur des prompts atteint des améliorations significatives, avec des gains de 46,7 % et 20,8 % en moyenne à 4 (Avg@4) respectivement sur xBench et GAIA. Notamment, notre agent montre une capacité exceptionnelle à des recherches à très long horizon, avec plus de 40 appels d’outils et plus de 150 000 jetons de sortie durant l’entraînement. Avec une conception d’agent simple et sans recours à des LLM externes, ASearcher-Web-QwQ obtient des scores Avg@4 de 42,1 sur xBench et 52,8 sur GAIA, dépassant ainsi les agents open source existants de 32B. Nous mettons à disposition nos modèles, les données d’entraînement et le code source sur https://github.com/inclusionAI/ASearcher.