Command Palette
Search for a command to run...

Résumé
Les modèles linguistiques à grande échelle (LLM) se sont progressivement transformés en systèmes agents capables d’utiliser de manière autonome des outils et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Toutefois, les approches post-entraînement fondées sur des modèles fondamentaux polyvalents présentent des performances insuffisantes sur les tâches agenstiques, en particulier dans leurs implémentations open source. Nous identifions la cause fondamentale : l’absence de modèles fondamentaux agenstiques robustes oblige les modèles, pendant la phase post-entraînement, à apprendre simultanément diverses comportements agenstiques tout en les alignant sur des démonstrations d’experts, ce qui engendre des tensions fondamentales dans l’optimisation. À cet effet, nous proposons pour la première fois l’intégration de l’entraînement préalable continu agenstique (Agentic CPT) dans le pipeline d’entraînement des agents de recherche profonde, afin de construire des modèles fondamentaux agenstiques puissants. À partir de cette approche, nous développons un modèle d’agent de recherche profonde nommé AgentFounder. Nous évaluons AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une capacité solide à utiliser des outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.