概要

人間の操作を模倣することは、ロボットに多様な操作能力を付与する有望なアプローチである。最近、模倣学習およびバッチ（オフライン）強化学習の分野で顕著な進展が見られたものの、オープンソースのヒューマンデータセットや再現可能な学習手法の不足により、分野の現状を評価することが困難な状況にある。本論文では、シミュレーション上および実世界の5つの複雑度が異なる多段階操作タスクと、3つの実世界の多段階操作タスクにおいて、データセットの品質が異なる状況下で、6種類のオフライン学習アルゴリズムを用いた広範な実験を行った。本研究は、オフライン人間データから操作能力を学習する際の最も重要な課題を分析した。その結果、アルゴリズム設計の選択に極めて敏感であること、教師データの品質に強く依存すること、および学習と評価における目的の違いにより停止基準によって結果が大きく変動することといった一連の教訓を導き出した。さらに、人間データセットからの学習における新たな可能性についても指摘した。具体的には、現在の強化学習手法の範囲を超える難易度の高い多段階タスクにおいても、優れたポリシーを学習できる可能性、および原始的なセンサ信号しか利用できない自然な実世界の操作シナリオへ容易にスケーラブルであるという利点である。本研究では、今後の研究を促進し、人間の操作データからの学習に関する公正な比較を可能にするために、データセットおよびすべてのアルゴリズム実装をオープンソース化した。コードベース、データセット、学習済みモデルなどは、以下のURLから入手可能である：https://arise-initiative.github.io/robomimic-web/

ソースPDF