Command Palette

Search for a command to run...

1ヶ月前

GEM:エージェンティックなLLM向けのギム

GEM:エージェンティックなLLM向けのギム

要約

大規模言語モデル(LLM)の学習パラダイムは、静的データセットから、複雑な環境との相互作用を通じてスキルを習得する経験に基づく学習へと移行しつつある。この移行を支援するため、本研究ではLLM時代に適した環境シミュレータ「GEM(General Experience Maker)」を紹介する。従来の強化学習(RL)におけるOpenAI-Gymに類似する形で、GEMは環境とエージェント間のインターフェースを標準化したフレームワークを提供しており、高スループットを実現する非同期ベクトル化実行機能や、拡張性を容易にする柔軟なラッパーを備えている。さらに、多様な環境セット、堅牢な統合ツール、および5つの人気のあるRL学習フレームワークと連携する単一ファイル形式の例題スクリプトも提供している。併せて、密度の高いターンごとの報酬を伴う完全なRL設定に対応し、GRPOとは異なり互換性を持つ「Return Batch Normalization(ReBN)を用いたREINFORCE」を用いて、24の環境において一連のベースラインを構築した。さらに、GEMを用いて単ターンおよびマルチターン設定の両方でPPO、GRPO、REINFORCEのアルゴリズムを直接比較したベンチマーク評価を実施し、各アルゴリズム設計の特性を明らかにした。最後に、GEMは学習環境に加えて、評価用ツールキットとしても機能する。本フレームワークが、今後のエージェント型LLM研究の加速に貢献することを期待している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GEM:エージェンティックなLLM向けのギム | 論文 | HyperAI超神経