2ヶ月前

CODA：分離型強化学習を用いた二大脳コンピュータ利用エージェントにおける大脳と小脳の連携

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

要約

グラフィカルユーザーインターフェース（GUI）用の自律エージェントは、長時間スパンの計画と正確な実行が求められる科学計算など、専門的分野において大きな課題に直面している。従来のアプローチは、一般的なエージェントは計画能力に優れるが実行性能が低く、専門的なエージェントは逆に計画能力が弱いというトレードオフに悩まされている。最近の構成的フレームワークは、計画者（planner）と実行者（actor）を組み合わせることでこのギャップを埋めようとしているが、これらは通常静的かつ学習不可能な構造を採用しており、経験からの適応が困難である。特に科学分野では高品質なデータが極めて限られているため、この制約は重大な問題である。本研究では、この課題を克服するため、学習可能な新しい構成的フレームワーク「CODA」を提案する。CODAは、一般化された計画者（Cerebrum）と専門的な実行者（Cerebellum）を統合し、独自の二段階パイプラインによって訓練される。第一段階「特化（Specialization）」では、各科学的アプリケーションごとに独立して、少量のタスク軌道から出発して、分離型GRPOアプローチを用いてエキスパート計画者を訓練する。第二段階「一般化（Generalization）」では、各特化エキスパートが生成した成功した軌道を統合し、一貫したデータセットを構築。このデータセットを用いて最終的な計画者を教師あり微調整（supervised fine-tuning）する。これにより、CODAは強固な実行能力と複数領域への一般化能力を両立する。ScienceBoardベンチマークの4つの挑戦的アプリケーション上で評価した結果、CODAはベースラインを大きく上回り、オープンソースモデルにおける新たな最良性能（SOTA）を達成した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

CODA：分離型強化学習を用いた二大脳コンピュータ利用エージェントにおける大脳と小脳の連携

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

要約

AI で AI を構築

Hyper Newsletters