il y a un jour

AgentFly : Affiner les agents de LLMS sans affiner les LLMS

Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

Voir les détails de l'article View Code

AgentFly : Affiner les agents de LLMS sans affiner les LLMS

Résumé

Dans cet article, nous introduisons un nouveau paradigme d’apprentissage pour les agents basés sur les grands modèles linguistiques (LLM) adaptatifs, qui élimine la nécessité de fine-tuning des LLM sous-jacents. Les approches existantes sont souvent rigides, reposant sur des flux de réflexion statiques et préétablis à la main, ou bien intensives en calcul, nécessitant des mises à jour par gradient des paramètres du modèle LLM. À l’inverse, notre méthode permet une adaptation continue à faible coût grâce à un apprentissage par renforcement en ligne basé sur la mémoire. Nous formalisons cette approche comme un processus de décision markovien augmenté de mémoire (M-MDP), doté d’une politique d’allocation de cas neuronale visant à guider les décisions d’action. Les expériences passées sont stockées dans une mémoire épisodique, soit différentiable, soit non paramétrique. La politique est continuellement mise à jour en fonction des retours de l’environnement via un mécanisme de réécriture de mémoire, tandis que son amélioration s’effectue par une lecture efficace (récupération) de la mémoire. Nous instancions notre modèle d’agent dans le cadre du deep research, sous le nom d’AgentFly, qui atteint le classement n°1 sur le validateur GAIA (87,88 % Pass@3) et 79,40 % sur l’ensemble de test. Il obtient respectivement 66,6 % en F1 et 80,4 % en PM sur le jeu de données DeepResearcher, surpassant ainsi la méthode de pointe basée sur l’entraînement, tandis que la mémoire basée sur les cas ajoute de 4,7 à 9,6 points absolus sur les tâches hors distribution. Notre approche ouvre une voie scalable et efficace pour le développement d’agents LLM généralistes capables d’apprentissage continu en temps réel, sans mise à jour par gradient, contribuant ainsi à l’évolution de l’apprentissage automatique vers une acquisition de compétences ouverte et des scénarios de recherche approfondie. Le code source est disponible à l’adresse suivante : https://github.com/Agent-on-the-Fly/AgentFly.