HyperAIHyperAI

Command Palette

Search for a command to run...

Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement

Xufang Luo Yuge Zhang Zhiyuan He Zilong Wang Siyun Zhao Dongsheng Li Luna K. Qiu Yuqing Yang

Résumé

Nous présentons Agent Lightning, un cadre souple et extensible permettant l’entraînement par apprentissage par renforcement (RL) des grands modèles linguistiques (LLM) pour tout agent intelligent. Contrairement aux méthodes existantes, qui couplent étroitement l’entraînement par RL à l’agent ou recourent à une concaténation de séquences avec masquage, Agent Lightning réalise un découplage complet entre l’exécution de l’agent et son entraînement. Cela permet une intégration transparente avec des agents existants développés selon des approches variées (par exemple, à l’aide de frameworks comme LangChain, de l’SDK OpenAI Agents, d’AutoGen, ou de manière personnalisée), avec presque aucune modification de code. En modélisant l’exécution de l’agent comme un processus de décision markovien (MDP), nous définissons une interface de données unifiée et proposons un algorithme de RL hiérarchique, nommé LightningRL, qui inclut un module d’attribution de crédit. Ce module permet de décomposer les trajectoires générées par tout type d’agent en transitions d’entraînement. Cette approche permet au RL de gérer des logiques d’interaction complexes, telles que les scénarios multi-agents ou les flux de travail dynamiques. En matière de conception système, nous introduisons une architecture de désagrégation entraînement-agent (Training-Agent Disaggregation) et intégrons des cadres d’observabilité des agents dans l’exécution en temps réel, offrant ainsi une interface standardisée pour le fine-tuning des agents. Des expériences menées sur des tâches de génération textuelle vers SQL, de génération augmentée par récupération et d’utilisation d’outils mathématiques démontrent des améliorations stables et continues, mettant en évidence le potentiel de ce cadre pour l’entraînement et le déploiement réels des agents intelligents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Agent Lightning : Former N'IMPORTE QUELLE IA avec l'apprentissage par renforcement | Articles | HyperAI