HyperAIHyperAI

Command Palette

Search for a command to run...

VLingNav:適応型推論と視覚支援言語記憶を活用したエンボディドナビゲーション

Shaoan Wang Yuanfei Luo Xingyu Chen Aocheng Luo Dongyue Li Chang Liu Sheng Chen Yangang Zhang Junzhi Yu

Abstract

VLAモデルは、大規模なVLM(視覚言語モデル)の優れた汎化能力を引き継ぎつつ、認知と計画を統合する点で、 embodid navigation(身体化ナビゲーション)において有望な可能性を示している。しかし、現存する大多数のVLAモデルは、観測値から行動へと直接反応的にマッピングするアプローチに依存しており、複雑で長時間にわたるナビゲーションタスクに必要な明示的な推論能力および持続的な記憶を欠いている。こうした課題に対処するため、本研究では言語駆動型認知に基づくVLAモデル「VLingNav」を提案する。第一に、人間の認知における二重プロセス理論(dual-process theory)に着想を得て、必要に応じて動的に明示的推論をトリガーする「適応的チェーン・オブ・シンキング(adaptive chain-of-thought)」機構を導入。これにより、エージェントは高速で直感的な実行と、遅く慎重な計画の間を滑らかに切り替えることが可能となる。第二に、長時間にわたる空間的依存関係を扱うため、視覚情報を支援する言語記憶モジュールを構築。このモジュールは、持続的でクロスモーダルな意味記憶を構築し、過去の観測を記憶することで、重複探索を防ぎ、動的環境における移動傾向を推論可能にする。学習のためのアプローチとして、推論アノテーションを備えた、これまでで最大規模の身体化ナビゲーションデータセット「Nav-AdaCoT-2.9M」を構築。このデータセットは、推論の「何时に考えるか」「何を考えていくか」を動的に調整できる推論パラダイムを誘導する「適応的CoTアノテーション」を豊富に含んでいる。さらに、オンラインでの専門家ガイド付き強化学習ステージを導入することで、単なる模倣学習を上回る、より堅牢で自己探索的なナビゲーション行動を獲得できる。広範な実験により、VLingNavが多様な身体化ナビゲーションベンチマークにおいて最先端の性能を達成することが示された。特に、VLingNavはゼロショットで現実のロボットプラットフォームに展開可能であり、さまざまなナビゲーションタスクを実行し、強力なクロスドメインおよびクロスタスクの汎化能力を示している。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VLingNav:適応型推論と視覚支援言語記憶を活用したエンボディドナビゲーション | Papers | HyperAI超神経