マイクロソフト、強化学習で大規模言語モデルを最適化するオープンソースフレームワーク「Agent Lightning」を発表
マイクロソフトが、強化学習(RL)を活用した大規模言語モデル(LLM)の性能向上を目的としたオープンソースフレームワーク「Agent Lightning」を発表した。このフレームワークは、既存の多エージェントシステムを再構築せずに、リアルタイムのエージェント行動を強化学習用の遷移データに変換する点が特徴。エージェントの観測(入力)、行動(モデル呼び出し)、報酬(最終または中間報酬)を明確に定義し、部分観測マルコフ決定過程(POMDP)として形式化することで、学習の精度と安定性を高める。 Agent Lightningは「訓練代理解耦」を採用。Lightning Serverが強化学習の訓練とモデル提供を担当し、OpenAI互換APIを提供することで、更新されたモデルを容易に統合できる。一方、Lightning Clientは既存のエージェント実行環境で呼び出し記録を収集し、リアルタイムでサーバーにデータを送信。この設計により、ツールやブラウザなどの外部依存関係を維持しつつ、GPUリソース集約型の訓練をサーバー層で効率的に行える。 データ収集には2種類のトラッキングパスをサポート。標準的なOpenTelemetry経由で遥測情報を収集する方法と、軽量な埋め込みトラッカーによる低負荷収集の選択が可能。両方のデータは一元的に保存され、高品質な訓練データとして活用される。 実験では、テキストからSQLへの変換(Spider基準)、検索増強生成(MuSiQue基準)、数学的推論(Calc Xデータセット)の3つのタスクで検証。いずれのタスクでも安定した報酬向上が確認され、エージェントの意思決定能力が顕著に改善した。論文はarXivに掲載(https://arxiv.org/abs/2508.03680v1)。 Agent Lightningは、AIエージェントの実用化を加速する基盤技術として、開発者と研究者に大きな可能性を提示している。
