17日前
大規模なビデオ生成事前学習による視覚ロボット操作の実現
Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong

要約
生成型事前学習モデルは、言語および視覚領域において、有用な表現を学習することで顕著な効果を示している。本論文では、この効果の適用範囲を拡張し、大規模な動画データを用いた生成型事前学習が視覚ベースのロボット操作において顕著な恩恵をもたらすことを示す。我々は、マルチタスクな言語条件付き視覚ロボット操作を目的とした、シンプルなGPTスタイルのモデルGR-1を提案する。GR-1は、言語指示、観測画像の時系列、ロボット状態の時系列を入力とし、エンドツーエンドでロボットの行動および将来の画像を予測する。柔軟な設計により、GR-1は大規模な動画データセット上で事前学習した後、ロボットデータ上でスムーズにファインチューニングが可能である。我々は、困難なCALVINベンチマークおよび実機ロボットを用いて広範な実験を行った。CALVINベンチマークにおいて、本手法は最先端のベースラインを上回り、成功確率を88.9%から94.9%まで向上させた。ゼロショット未観測シーンの一般化設定では、成功確率を53.3%から85.4%まで改善した。実機ロボット実験においても、本手法はベースラインを上回り、未観測のシーンや物体への一般化能力に優れたポテンシャルを示した。本研究は、大規模な動画生成型事前学習を活用した統一的なGPTスタイルのトランスフォーマーが、マルチタスク視覚ロボット操作において顕著な一般化性能を示す、初の実証的証拠を提供する。プロジェクトページ:https://GR1-Manipulation.github.io