HyperAIHyperAI

Command Palette

Search for a command to run...

自己教師付きワールドモデルを用いた計画による手順的汎化

Ankesh Anand Jacob Walker Yazhe Li Eszter Vértes Julian Schrittwieser Sherjil Ozair Théophane Weber Jessica B. Hamrick

概要

モデルベース強化学習の主な利点の一つは、世界の内部モデルを用いて新しい環境やタスクにおいて予測を行うことで、一般化能力を発揮できる点にある。しかし、現行の一般化評価においてはモデルフリー型エージェントに焦点が当てられているため、モデルベースエージェントの一般化能力については十分に理解されていない。本研究では、モデルベースエージェントの一般化能力を、モデルフリー型エージェントと比較して明示的に測定する。分析の対象として、強力なモデルベースエージェントであるMuZero(Schrittwieserら、2020)を採用し、手続き的(procedural)一般化およびタスク一般化の両面でその性能を評価した。手続き的一般化においては、3つの要因——計画(planning)、自己教師付き表現学習(self-supervised representation learning)、手続き的データの多様性(procedural data diversity)——を特定し、これらを組み合わせることで、Procgen(Cobbeら、2019)において最先端の一般化性能とデータ効率を達成することを示した。一方で、これらの要因がMeta-World(Yuら、2019)におけるタスク一般化ベンチマークでも同様の利点をもたらすとは限らないことが明らかになった。これは、転移学習が依然として課題であり、手続き的一般化とは異なるアプローチを必要とする可能性を示唆している。総合的にみて、一般化可能なエージェントの構築には、単一タスク・モデルフリー型の枠組みを越え、豊かな手続き的かつマルチタスクな環境で自己教師付きで訓練されるモデルベースエージェントの開発が不可欠であると提言する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています