HyperAIHyperAI
il y a 12 jours

Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement
Résumé

Nous présentons Agent Lightning, un cadre souple et extensible permettant l’entraînement par apprentissage par renforcement (RL) des grands modèles linguistiques (LLM) pour tout agent intelligent. Contrairement aux méthodes existantes, qui couplent étroitement l’entraînement par RL à l’agent ou recourent à une concaténation de séquences avec masquage, Agent Lightning réalise un découplage complet entre l’exécution de l’agent et son entraînement. Cela permet une intégration transparente avec des agents existants développés selon des approches variées (par exemple, à l’aide de frameworks comme LangChain, de l’SDK OpenAI Agents, d’AutoGen, ou de manière personnalisée), avec presque aucune modification de code. En modélisant l’exécution de l’agent comme un processus de décision markovien (MDP), nous définissons une interface de données unifiée et proposons un algorithme de RL hiérarchique, nommé LightningRL, qui inclut un module d’attribution de crédit. Ce module permet de décomposer les trajectoires générées par tout type d’agent en transitions d’entraînement. Cette approche permet au RL de gérer des logiques d’interaction complexes, telles que les scénarios multi-agents ou les flux de travail dynamiques. En matière de conception système, nous introduisons une architecture de désagrégation entraînement-agent (Training-Agent Disaggregation) et intégrons des cadres d’observabilité des agents dans l’exécution en temps réel, offrant ainsi une interface standardisée pour le fine-tuning des agents. Des expériences menées sur des tâches de génération textuelle vers SQL, de génération augmentée par récupération et d’utilisation d’outils mathématiques démontrent des améliorations stables et continues, mettant en évidence le potentiel de ce cadre pour l’entraînement et le déploiement réels des agents intelligents.