Command Palette
Search for a command to run...

要約
視覚-運動ポリシーにおける模倣学習は、ロボット操作分野で広く利用されており、正確な制御のため、視覚観測と本体感覚状態(プロプライオセプティブ状態)を併用することが一般的である。しかし本研究では、この一般的なアプローチがポリシーが本体感覚状態入力に過度に依存させ、学習時の軌道に過剰適合(オーバーフィット)を引き起こし、空間的な一般化性能が低下することを発見した。これに対して、本研究では本体感覚状態入力を排除し、視覚観測のみに条件付けた行動を予測する「ステートフリー・ポリシー(State-free Policy)」を提案する。このポリシーは、エンドエフェクタの相対的動作空間に構築されており、タスクに必要なすべての視覚的観測を確保する必要がある。本研究では、この目的を達成するために、両腕に装着された広視野角のウェッジカメラを用いて視覚情報を提供している。実験結果から、ステートフリー・ポリシーは従来の本体感覚状態を用いるポリシーに比べ、著しく優れた空間一般化性能を示した。実世界のタスク、例えばピックアンドプレース、困難なシャツの折りたたみ、複雑な全身操作を対象とした実験において、複数のロボットエムボディメントにわたって評価した結果、高さ方向の一般化において成功率が0%から85%に、水平方向の一般化においては6%から64%に向上した。さらに、データ効率性および異なるエムボディメント間の適応性においても優位性を示し、実世界への展開に向けた実用性が高まっている。