2ヶ月前

SpatialVLA: 可視言語行動モデルにおける空間表現の探求

Delin Qu; Haoming Song; Qizhi Chen; Yuanqi Yao; Xinyi Ye; Yan Ding; Zhigang Wang; JiaYuan Gu; Bin Zhao; Dong Wang; Xuelong Li
SpatialVLA: 可視言語行動モデルにおける空間表現の探求
要約

本論文では、空間理解がロボット操作の重要なポイントであると主張し、ロボット基礎モデルの効果的な空間表現を探索するためのSpatialVLAを提案します。具体的には、視覚言語行動モデルの入力観測に3次元情報を注入するためにEgo3D位置エンコーディングを導入し、Adaptive Action Grids(適応的アクショングリッド)を提案して、新しいシミュレーションや実世界設定における空間的なロボット移動行動を適応的に離散化したアクショングリッドで表現します。これにより、複数のロボット間での制御において一般化可能かつ転送可能な空間行動知識の学習が容易になります。SpatialVLAはまず、110万件の実世界ロボットエピソードに基づく視覚言語モデル上で事前学習され、複数のロボット環境やタスクにわたる一般的な操作ポリシーを学習します。事前学習後、SpatialVLAはゼロショットで多くのタスクを直接実行することができます。シミュレーションおよび実世界ロボットでの優れた結果は、複雑なロボット動作軌道を推定する能力と強力なドメイン内多タスク一般化能力を持つことを示しています。さらに、提案されたAdaptive Action Gridsは、新しいシミュレーションや実世界設定に対して事前学習済みのSpatialVLAモデルを微調整する新たな有効な方法を提供します。ここで、事前に学習されたアクショングリッドは再離散化され、新しい設定固有の空間的なロボット行動移動を捉えます。広範囲にわたる評価から得られた優れた結果は、卓越したドメイン内一般化能力和およびドメイン外適応能力を持つことを示しており、提案された空間認識表現が一般的なロボットポリシー学習にとって重要な利点であることを強調しています。本研究に関する詳細とコードはオープンソースとして公開されます。

SpatialVLA: 可視言語行動モデルにおける空間表現の探求 | 最新論文 | HyperAI超神経