2ヶ月前
TraceVLA: 可視トレースプロンプティングが汎用ロボットポリシーの空間時間認識を向上させる
Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

要約
大規模な視覚言語行動(VLA)モデルは、広範なロボットデータセットで事前学習されたことで、ロボット学習における有望な汎用ポリシーを提供していますが、インタラクティブロボティクスの空間時間動態に依然として苦戦しており、操作などの複雑なタスクの処理において効果が低いという問題があります。本研究では、状態行動軌跡を視覚的に符号化することでVLAモデルの空間時間認識を促進し、行動予測を改善するための単純かつ効果的な手法である「視覚トレースプロンプティング」を導入します。私たちは、自ら収集した15万件のロボット操作軌跡データセットを使用してOpenVLAを微調整することにより、新しいTraceVLAモデルを開発しました。SimplerEnvでの137種類の構成と物理的なWidowXロボットでの4つのタスクに対するTraceVLAの評価結果は最先端の性能を示しており、SimplerEnvではOpenVLAに対して10%上回り、実際のロボットタスクでは3.5倍以上の性能向上を達成しています。また、多様なエンバディメントやシナリオにおいても堅牢な汎化能力を示しています。さらに、当手法の有効性と汎用性を検証するために、4B Phi-3-Visionに基づくコンパクトなVLAモデルを開発しました。このモデルはOpen-X-Embodimentで事前学習され、私たちのデータセットで微調整されています。その結果、7B OpenVLAベースラインと同等の性能を達成しながら推論効率が大幅に向上しています。