概要

デキストラスな操作は、ロボットの実世界応用における能力を進化させる上で不可欠であるが、多様性に富み高品質なデータセットは依然として稀少である。既存のデータ収集手法は、人間の遠隔操作に依存するものや、大量の人的工学的介入を要するもの、あるいは多様性に乏しいデータを生成するものがあり、いずれもスケーラビリティと汎化能力の制限をもたらしている。本論文では、自己改善サイクルを用いて継続的にデータの多様性を豊かにする、スケーラブルなデータ生成フレームワーク「DexFlyWheel」を提案する。効率的な初期デモンストレーション（seed demonstrations）のウォームアップから始まり、DexFlyWheelは反復的なサイクルを経てデータセットを拡張する。各サイクルは、模倣学習（Imitation Learning, IL）、残差強化学習（residual Reinforcement Learning, RL）、ロールアウト軌道の収集、およびデータ拡張を統合したクローズドループパイプラインに従う。具体的には、ILによりデモンストレーションから人間のような行動を抽出し、残差RLによりポリシーの汎化性能を向上させる。学習されたポリシーを用いてシミュレーション内で軌道を生成し、その後、多様な環境および空間配置においてデータ拡張を施した上で次のサイクルへフィードバックする。繰り返しの反復を通じて、自己改善型のデータフライホイール効果が発現し、多様なシナリオをカバーするデータセットを生成することで、ポリシー性能のスケーリングを実現する。実験結果から、DexFlyWheelは4つの困難なタスクにおいて2,000を超える多様なデモンストレーションを生成することを確認した。当該データセット上で訓練されたポリシーは、チャレンジテストセットにおいて平均81.9％の成功率を達成し、デジタルツインを介して実世界への転移も成功させ、二腕持ち上げタスクにおいて78.3％の成功率を実現した。

ソースPDF