17日前
エンドツーエンド感覚運動学習のためのニューラルダイナミックポリシー
Shikhar Bahl, Mustafa Mukadam, Abhinav Gupta, Deepak Pathak

要約
現在、センソリモータ制御の主流である模倣学習や強化学習においては、トルク、関節角度、エンドエフェクタ位置といった原始的なアクション空間でポリシーを直接学習するというアプローチが一般的である。しかし、この方法では各タイムステップにおいてエージェントが個別に決定を下さなければならないため、連続的かつ高次元的、また長時間スケールのタスクへのスケーラビリティに限界がある。これに対して、古典的ロボティクスの分野では長年にわたり、ダイナミカルシステムをポリシー表現として用いて、デモンストレーションを用いたロボット行動の学習が行われてきた。しかし、こうした手法は深層学習や強化学習が提供する柔軟性や汎化能力に欠け、そのような文脈では依然として十分に検討されていない。本研究では、このギャップを埋める一歩として、2次微分方程式を用いたアクション空間の再パラメータ化により、ダイナミカルシステムの構造を深層ニューラルネットワークベースのポリシーに組み込む。我々は、従来のポリシー学習手法が原始的な制御空間におけるアクションを直接予測するのに対し、軌道分布空間における予測を行う「ニューラルダイナミックポリシー(Neural Dynamic Policies: NDPs)」を提案する。この埋め込み構造により、強化学習および模倣学習の両設定においてエンドツーエンドでのポリシー学習が可能となる。実験の結果、複数のロボット制御タスクにおいて、模倣学習および強化学習の両設定で、従来の最先端技術と比較して、効率性または性能の点で優れた結果を示した。プロジェクトの動画およびコードは、https://shikharbahl.github.io/neural-dynamic-policies/ にて公開されている。