HyperAIHyperAI

Command Palette

Search for a command to run...

エージェントのRGBを超えた旅:視覚言語ナビゲーションのためのハイブリッド意味空間環境表現の解明

Xuesong Zhang Yunbo Xu Jia Li Zhenzhen Hu Richnag Hong

概要

未知環境下での自然言語指示に基づくナビゲーションは、エゴセントリックなエージェントにとって依然として困難です(Vision-and-Language Navigation: VLN)。既存のアプローチは主にRGB画像に依存して環境を表現しており、潜在的なテキストの意味論的情報や空間的な手がかりを十分に活用しておらず、指示と希薄な環境表現の間のモダリティギャップを解決できていません。直感的に、人間は室内ナビゲーション中に空間配置内に意味論的知識を内在させる能力を持っています。この点から着想を得て、私たちは多様な視点から環境を内在化するようエージェントを促すための柔軟な意味理解と空間認識(Semantic Understanding and Spatial Awareness: SUSA)アーキテクチャを提案します。SUSAには、エージェントの周囲にある環境ランドマークの説明を生成し関連付けることで指示と環境間のモダリティギャップを縮めるテキスト意味理解(Textual Semantic Understanding: TSU)モジュールが含まれています。さらに、深さ強化型空間知覚(Depth-enhanced Spatial Perception: DSP)モジュールが段階的に深さ探査マップを作成し、環境配置に対するより洗練された理解を可能にします。実験結果は、SUSAのハイブリッドな意味-空間表現がナビゲーション性能を効果的に向上させることを示しており、3つのVLNベンチマーク(REVERIE, R2R, およびSOON)において新たな最先端の性能を達成しています。ソースコードは公開される予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています