8ヶ月前

概要

未知環境下での自然言語指示に基づくナビゲーションは、エゴセントリックなエージェントにとって依然として困難です（Vision-and-Language Navigation: VLN）。既存のアプローチは主にRGB画像に依存して環境を表現しており、潜在的なテキストの意味論的情報や空間的な手がかりを十分に活用しておらず、指示と希薄な環境表現の間のモダリティギャップを解決できていません。直感的に、人間は室内ナビゲーション中に空間配置内に意味論的知識を内在させる能力を持っています。この点から着想を得て、私たちは多様な視点から環境を内在化するようエージェントを促すための柔軟な意味理解と空間認識（Semantic Understanding and Spatial Awareness: SUSA）アーキテクチャを提案します。SUSAには、エージェントの周囲にある環境ランドマークの説明を生成し関連付けることで指示と環境間のモダリティギャップを縮めるテキスト意味理解（Textual Semantic Understanding: TSU）モジュールが含まれています。さらに、深さ強化型空間知覚（Depth-enhanced Spatial Perception: DSP）モジュールが段階的に深さ探査マップを作成し、環境配置に対するより洗練された理解を可能にします。実験結果は、SUSAのハイブリッドな意味-空間表現がナビゲーション性能を効果的に向上させることを示しており、3つのVLNベンチマーク（REVERIE, R2R, およびSOON）において新たな最先端の性能を達成しています。ソースコードは公開される予定です。

ソースPDF