HyperAIHyperAI
vor 12 Tagen

Agent Lightning: Trainieren Sie JEDE KI-Agenten mit Verstärkendem Lernen

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, et al
Agent Lightning: Trainieren Sie JEDE KI-Agenten mit Verstärkendem Lernen
Abstract

Wir stellen Agent Lightning vor, einen flexiblen und erweiterbaren Rahmen, der die Verstärkungslern-(Reinforcement Learning, RL)-basierte Ausbildung großer Sprachmodelle (Large Language Models, LLMs) für beliebige KI-Agenten ermöglicht. Im Gegensatz zu bestehenden Ansätzen, die die RL-Trainingsphase eng mit dem Agenten verknüpfen oder auf Sequenz-Konkatenation mit Maskierung angewiesen sind, erreicht Agent Lightning eine vollständige Entkoppelung zwischen Agentenausführung und -training. Dadurch lässt sich nahtlos mit bereits existierenden Agenten integrieren, die auf unterschiedlichen Wegen entwickelt wurden (z. B. mittels Frameworks wie LangChain, OpenAI Agents SDK, AutoGen oder von Grund auf neu erstellt), wobei praktisch keine Codeänderungen erforderlich sind. Indem wir die Agentenausführung als Markov-Entscheidungsprozess formulieren, definieren wir eine einheitliche Daten-Schnittstelle und stellen einen hierarchischen RL-Algorithmus namens LightningRL vor, der über ein Credit-Assignment-Modul verfügt. Dieses ermöglicht es uns, Trajektorien, die von beliebigen Agenten generiert werden, in Trainingsübergänge zu zerlegen. Damit kann RL komplexe Interaktionslogiken, wie beispielsweise Multi-Agenten-Szenarien und dynamische Workflows, effektiv bewältigen. Im Hinblick auf die Systemarchitektur führen wir eine Training-Agent-Disaggregation-Architektur ein und integrieren Observabilitätsframeworks direkt in die Agentenlaufzeit, um eine standardisierte Schnittstelle für die Feinabstimmung von Agenten bereitzustellen. Experimente an Aufgaben aus den Bereichen Text-to-SQL, retrieval-augmented Generation und mathematische Tool-Nutzung zeigen stabile, kontinuierliche Verbesserungen und unterstreichen das Potenzial des Frameworks für die praktische Ausbildung und Bereitstellung von Agenten in realen Anwendungsszenarien.