13日前

RT-2：視覚言語行動モデルがWeb知識をロボット制御へ転移する

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich

論文の詳細を見る

要約

インターネット規模のデータ上で訓練された視覚言語モデルが、エンドツーエンドのロボット制御に直接組み込まれることで、一般化性能の向上と顕在化する意味的推論能力の実現が可能になるかを検討する。本研究の目的は、単一のエンドツーエンド訓練モデルが、ロボットの観測値から行動へとマッピングする能力を学習しつつ、インターネット規模の言語および視覚言語データに対する大規模事前学習の利点を享受できるようにすることである。この目的を達成するため、最先端の視覚言語モデルを、ロボットの軌道データと、視覚質問応答（VQA）などインターネット規模の視覚言語タスクの両方で同時にファインチューニングする手法を提案する。他のアプローチとは異なり、本研究ではシンプルかつ汎用的なアプローチを提示する：自然言語の応答とロボットの行動を同一の形式に統合するため、行動をテキストトークンとして表現し、自然言語トークンと同様にモデルの学習データセットに直接組み込む。このようなモデルを「視覚言語行動モデル（Vision-Language-Action model, VLA）」と呼ぶ。その具体例として、RT-2と名付けたモデルを構築した。広範な評価（6,000回の試行）の結果、本手法により高性能なロボットポリシーが得られ、RT-2がインターネット規模の学習から多様な顕在化能力を獲得することを実証した。具体的には、訓練データに含まれない新しい物体への顕著な一般化能力、ロボット訓練データに存在しない命令（たとえば、特定の数字やアイコンの上に物体を置く）の解釈能力、ユーザーの命令に対して基礎的な推論を行う能力（たとえば、最小または最大の物体、または他の物体に最も近い物体を選び取る）が得られた。さらに、思考の連鎖（chain of thought）推論を組み込むことで、RT-2が多段階の意味的推論を実行可能となることを示した。たとえば、代用ハンマーとして使える物体（岩）を特定する、または疲れている人にとって最適な飲み物（エネルギー飲料）を選ぶといった推論が可能になった。