Chenhao Li Andreas Krause Marco Hutter

要約
現実世界の環境において、効率的かつスケーラブルなロボット制御を実現するためには、頑健で汎用性の高い世界モデルの学習が不可欠である。本研究では、複雑で部分観測可能かつ確率的な動的特性を正確に捉える世界モデルの学習を可能にする、新しい枠組みを提案する。本手法は、ドメイン特有の誘導的バイアスに依存せずに、信頼性の高い長時間予測を実現するため、二重自己回帰機構と自己教師学習を採用している。さらに、仮想環境における効率的な学習と現実世界システムへのスムーズな展開を可能にする、世界モデルを活用した方策最適化フレームワークも提案する。本研究は、長時間予測、誤差の累積、シミュレーションから現実への転送といった課題に立ち向かい、モデルベース強化学習の発展を図った。スケーラブルかつ頑健な枠組みを提供することで、本研究で提示された手法は、現実世界応用における適応性と効率性を兼ね備えたロボットシステムの実現に道を開く。