Command Palette
Search for a command to run...

要約
大規模言語モデル(LLM)の学習パラダイムは、静的データセットから、複雑な環境との相互作用を通じてスキルを習得する経験に基づく学習へと移行しつつある。この移行を支援するため、本研究ではLLM時代に適した環境シミュレータ「GEM(General Experience Maker)」を紹介する。従来の強化学習(RL)におけるOpenAI-Gymに類似する形で、GEMは環境とエージェント間のインターフェースを標準化したフレームワークを提供しており、高スループットを実現する非同期ベクトル化実行機能や、拡張性を容易にする柔軟なラッパーを備えている。さらに、多様な環境セット、堅牢な統合ツール、および5つの人気のあるRL学習フレームワークと連携する単一ファイル形式の例題スクリプトも提供している。併せて、密度の高いターンごとの報酬を伴う完全なRL設定に対応し、GRPOとは異なり互換性を持つ「Return Batch Normalization(ReBN)を用いたREINFORCE」を用いて、24の環境において一連のベースラインを構築した。さらに、GEMを用いて単ターンおよびマルチターン設定の両方でPPO、GRPO、REINFORCEのアルゴリズムを直接比較したベンチマーク評価を実施し、各アルゴリズム設計の特性を明らかにした。最後に、GEMは学習環境に加えて、評価用ツールキットとしても機能する。本フレームワークが、今後のエージェント型LLM研究の加速に貢献することを期待している。