RT-2:視覚言語行動モデルがWeb知識をロボット制御へ転移する

インターネット規模のデータ上で訓練された視覚言語モデルが、エンドツーエンドのロボット制御に直接組み込まれることで、一般化性能の向上と顕在化する意味的推論能力の実現が可能になるかを検討する。本研究の目的は、単一のエンドツーエンド訓練モデルが、ロボットの観測値から行動へとマッピングする能力を学習しつつ、インターネット規模の言語および視覚言語データに対する大規模事前学習の利点を享受できるようにすることである。この目的を達成するため、最先端の視覚言語モデルを、ロボットの軌道データと、視覚質問応答(VQA)などインターネット規模の視覚言語タスクの両方で同時にファインチューニングする手法を提案する。他のアプローチとは異なり、本研究ではシンプルかつ汎用的なアプローチを提示する:自然言語の応答とロボットの行動を同一の形式に統合するため、行動をテキストトークンとして表現し、自然言語トークンと同様にモデルの学習データセットに直接組み込む。このようなモデルを「視覚言語行動モデル(Vision-Language-Action model, VLA)」と呼ぶ。その具体例として、RT-2と名付けたモデルを構築した。広範な評価(6,000回の試行)の結果、本手法により高性能なロボットポリシーが得られ、RT-2がインターネット規模の学習から多様な顕在化能力を獲得することを実証した。具体的には、訓練データに含まれない新しい物体への顕著な一般化能力、ロボット訓練データに存在しない命令(たとえば、特定の数字やアイコンの上に物体を置く)の解釈能力、ユーザーの命令に対して基礎的な推論を行う能力(たとえば、最小または最大の物体、または他の物体に最も近い物体を選び取る)が得られた。さらに、思考の連鎖(chain of thought)推論を組み込むことで、RT-2が多段階の意味的推論を実行可能となることを示した。たとえば、代用ハンマーとして使える物体(岩)を特定する、または疲れている人にとって最適な飲み物(エネルギー飲料)を選ぶといった推論が可能になった。