Microsoft lance Agent Lightning : un cadre open source pour optimiser les modèles linguistiques par apprentissage par renforcement
Microsoft a lancé Agent Lightning, un cadre open source conçu pour améliorer les systèmes multi-agents grâce à l’apprentissage par renforcement (RL). Ce framework permet d’optimiser les performances des grands modèles linguistiques (LLM) sans nécessiter de réécriture ou de restructuration des architectures existantes. Il fonctionne en transformant les comportements réels des agents en transitions utilisables pour l’apprentissage par renforcement. Agent Lightning modélise chaque agent comme un processus de décision partiellement observable de Markov (POMDP). Dans ce cadre, l’observation correspond à l’entrée actuelle, l’action est une requête ou un appel au modèle, et la récompense peut être soit une récompense finale, soit une récompense intermédiaire. Le cadre extrait les traces d’appels des agents — incluant les entrées, sorties et récompenses — pour filtrer les bruits indésirables et générer des données de transition propres, idéales pour l’entraînement. Une caractéristique clé de Agent Lightning est sa méthode de désassociation entre entraînement et exécution. Le Lightning Server gère l’entraînement et le service, offrant une interface API compatible avec OpenAI pour une intégration fluide. Le Lightning Client, quant à lui, s’exécute dans l’environnement d’exécution existant des agents, où il capte en temps réel les traces d’appels et les transmet au serveur. Cette architecture préserve l’intégration étroite avec les outils, navigateurs ou dépendances externes, tout en centralisant le calcul intensif sur GPU au niveau du serveur. Le cadre supporte deux voies de suivi. La voie par défaut utilise OpenTelemetry pour collecter les métriques et les données de télémétrie, facilitant leur envoi vers des systèmes de collecte standardisés. Une alternative plus légère, un traceur embarqué, est proposée pour les équipes souhaitant éviter le déploiement d’OpenTelemetry. Toutes les données collectées sont centralisées dans un même emplacement, garantissant une cohérence et une accessibilité optimales pour l’entraînement des modèles. En matière d’évaluation, les chercheurs ont testé Agent Lightning sur trois tâches critiques : - Conversion texte en SQL, évaluée sur le benchmark Spider, comprenant plus de 10 000 questions et 200 bases de données. - Génération renforcée par recherche, basée sur le benchmark MuSiQue, construit sur un index de 21 millions de documents, similaire à la taille de Wikipedia. - Résolution de problèmes mathématiques, utilisant le jeu de données Calc X, qui repose sur des appels d’outils pour effectuer des calculs. Les résultats montrent une amélioration significative et stable des récompenses dans chaque tâche, démontrant l’efficacité du cadre pour améliorer les performances des agents LLM. En résumé : - Agent Lightning est un cadre open source pour optimiser les systèmes multi-agents par RL, sans refonte des infrastructures existantes. - Il modélise les agents comme des POMDP et extrait des données de transition propres à partir des traces d’exécution. - Grâce à une architecture décentralisée (client/serveur) et à des mécanismes de suivi flexibles, il permet une intégration fluide et une scalabilité élevée. - Des expérimentations sur des tâches réelles confirment des gains de performance notables. Pour en savoir plus : https://arxiv.org/abs/2508.03680v1
