17日前

自己教師付きワールドモデルを用いた計画による手順的汎化

Ankesh Anand, Jacob Walker, Yazhe Li, Eszter Vértes, Julian Schrittwieser, Sherjil Ozair, Théophane Weber, Jessica B. Hamrick

論文の詳細を見る

要約

モデルベース強化学習の主な利点の一つは、世界の内部モデルを用いて新しい環境やタスクにおいて予測を行うことで、一般化能力を発揮できる点にある。しかし、現行の一般化評価においてはモデルフリー型エージェントに焦点が当てられているため、モデルベースエージェントの一般化能力については十分に理解されていない。本研究では、モデルベースエージェントの一般化能力を、モデルフリー型エージェントと比較して明示的に測定する。分析の対象として、強力なモデルベースエージェントであるMuZero（Schrittwieserら、2020）を採用し、手続き的（procedural）一般化およびタスク一般化の両面でその性能を評価した。手続き的一般化においては、3つの要因——計画（planning）、自己教師付き表現学習（self-supervised representation learning）、手続き的データの多様性（procedural data diversity）——を特定し、これらを組み合わせることで、Procgen（Cobbeら、2019）において最先端の一般化性能とデータ効率を達成することを示した。一方で、これらの要因がMeta-World（Yuら、2019）におけるタスク一般化ベンチマークでも同様の利点をもたらすとは限らないことが明らかになった。これは、転移学習が依然として課題であり、手続き的一般化とは異なるアプローチを必要とする可能性を示唆している。総合的にみて、一般化可能なエージェントの構築には、単一タスク・モデルフリー型の枠組みを越え、豊かな手続き的かつマルチタスクな環境で自己教師付きで訓練されるモデルベースエージェントの開発が不可欠であると提言する。