Command Palette

Search for a command to run...

20日前

空間的強制:視覚言語行動モデルにおける暗黙的空間表現の整合

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

空間的強制:視覚言語行動モデルにおける暗黙的空間表現の整合

要約

視覚言語行動(Vision-Language-Action: VLA)モデルは、ロボットが自然言語の指示に従い、正確な行動を実行できる可能性を近年示している。しかし、多数のVLAモデルは2次元(2D)データのみで事前学習された視覚言語モデルに基づいているため、正確な空間認識能力に欠け、3次元(3D)の物理世界での運用を制限している。既存の解決策では、深度マップや点群といった明示的な3Dセンサ入力を導入しようとするが、センサノイズやハードウェアの非一貫性、および既存データセットにおける深度情報の不完全なカバー範囲といった課題に直面している。一方、2D画像から3D情報を推定する代替手法も、深度推定器の性能限界により、十分な精度を発揮できていない。本研究では、明示的な3D入力や深度推定器に依存せずに、VLAモデルが空間理解能力を内発的に獲得できるよう促す、シンプルかつ効果的なアライメント戦略「空間強制(Spatial Forcing: SF)」を提案する。SFは、事前学習された3D基盤モデルが生成する幾何学的表現と、VLAモデルの中間段階の視覚的埋め込みを対応付ける。中間層でのアライメントを強制することで、SFはVLAがより豊かな空間表現をエンコードするよう導き、行動の精度を向上させる。シミュレーションおよび現実世界の環境における広範な実験により、SFが2Dおよび3DベースのVLAを上回る最先端の性能を達成することが実証された。さらに、SFは訓練を最大3.8倍高速化し、多様なロボットタスクにおいてデータ効率を向上させる。プロジェクトページは以下の通り:https://spatial-forcing.github.io/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
空間的強制:視覚言語行動モデルにおける暗黙的空間表現の整合 | 論文 | HyperAI超神経