il y a 2 mois

Scaling des agents par pré-entraînement continu

Liangcai Su Zhen Zhang Guangyu Li Zhuo Chen Chenxi Wang Maojia Song Xinyu Wang Kuan Li Jialong Wu Xuanzhong Chen

Résumé

Les modèles linguistiques à grande échelle (LLM) se sont progressivement transformés en systèmes agents capables d’utiliser de manière autonome des outils et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Toutefois, les approches post-entraînement fondées sur des modèles fondamentaux polyvalents présentent des performances insuffisantes sur les tâches agenstiques, en particulier dans leurs implémentations open source. Nous identifions la cause fondamentale : l’absence de modèles fondamentaux agenstiques robustes oblige les modèles, pendant la phase post-entraînement, à apprendre simultanément diverses comportements agenstiques tout en les alignant sur des démonstrations d’experts, ce qui engendre des tensions fondamentales dans l’optimisation. À cet effet, nous proposons pour la première fois l’intégration de l’entraînement préalable continu agenstique (Agentic CPT) dans le pipeline d’entraînement des agents de recherche profonde, afin de construire des modèles fondamentaux agenstiques puissants. À partir de cette approche, nous développons un modèle d’agent de recherche profonde nommé AgentFounder. Nous évaluons AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une capacité solide à utiliser des outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Scaling des agents par pré-entraînement continu

Liangcai Su Zhen Zhang Guangyu Li Zhuo Chen Chenxi Wang Maojia Song Xinyu Wang Kuan Li Jialong Wu Xuanzhong Chen12 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Liangcai Su Zhen Zhang Guangyu Li Zhuo Chen Chenxi Wang Maojia Song Xinyu Wang Kuan Li Jialong Wu Xuanzhong Chen