Command Palette
Search for a command to run...
GR-Dexter 技術報告
GR-Dexter 技術報告
Abstract
視覚-言語-行動(Vision-Language-Action: VLA)モデルにより、言語によって制御される長時間スパンのロボット操作が可能となったが、現存する大多数のシステムはハンド(グリッパー)に限定されている。高自由度(DoF)を持つ機敏な両手型ハンドを備えた二腕型ロボットへのVLAポリシーのスケーリングは、拡大した行動空間、頻発するハンドと物体の遮蔽、および実機データ収集のコストといった課題により、依然として困難である。本研究では、両手型機敏ハンドロボットにおけるVLAベースの汎用操作を実現するための包括的かつ統合的なハードウェア-モデル-データフレームワーク「GR-Dexter」を提案する。本手法は、コンパクトな21自由度のロボットハンドの設計、実機データ収集に向けた直感的な両腕遠隔操作システム、および遠隔操作によるロボット軌道データと大規模な視覚-言語データセット、さらに慎重に選別されたクロスエン bodiment データセットを活用したトレーニング手法を統合したものである。実世界における長時間スパンの日常的操作用および汎化可能なピックアンドプレースタスクにおいて、GR-Dexterは領域内での優れた性能を達成するとともに、未確認の物体や未確認の指示に対しても高いロバスト性を示した。本研究は、機敏なハンドを備えた汎用ロボット操作の実現に向けた実用的な一歩であると期待する。