HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Scaling des agents par pré-entraînement continu

Scaling des agents par pré-entraînement continu

Résumé

Les modèles linguistiques à grande échelle (LLM) se sont progressivement transformés en systèmes agents capables d’utiliser de manière autonome des outils et de raisonner en plusieurs étapes pour résoudre des problèmes complexes. Toutefois, les approches post-entraînement fondées sur des modèles fondamentaux polyvalents présentent des performances insuffisantes sur les tâches agenstiques, en particulier dans leurs implémentations open source. Nous identifions la cause fondamentale : l’absence de modèles fondamentaux agenstiques robustes oblige les modèles, pendant la phase post-entraînement, à apprendre simultanément diverses comportements agenstiques tout en les alignant sur des démonstrations d’experts, ce qui engendre des tensions fondamentales dans l’optimisation. À cet effet, nous proposons pour la première fois l’intégration de l’entraînement préalable continu agenstique (Agentic CPT) dans le pipeline d’entraînement des agents de recherche profonde, afin de construire des modèles fondamentaux agenstiques puissants. À partir de cette approche, nous développons un modèle d’agent de recherche profonde nommé AgentFounder. Nous évaluons AgentFounder-30B sur 10 benchmarks et obtenons des performances de pointe tout en conservant une capacité solide à utiliser des outils, notamment 39,9 % sur BrowseComp-en, 43,3 % sur BrowseComp-zh et 31,5 % Pass@1 sur HLE.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Scaling des agents par pré-entraînement continu | Articles de recherche | HyperAI