19日前
BEVBert:言語誘導型ナビゲーションのためのマルチモーダル地図事前学習
Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, Jing Shao

要約
大規模な事前学習は、視覚・言語ナビゲーション(VLN)タスクにおいて有望な結果を示している。しかし、既存の多くの中の事前学習手法は、視覚的・言語的関連を学習するために離散的なパノラマ画像を用いている。このアプローチでは、パノラマ内に存在する不完全で重複する観測データ間の暗黙的な関連付けをモデルに求めることになり、エージェントの空間的理解を損なう可能性がある。そこで本研究では、VLNに適した空間認識を意識した新たなマップベースの事前学習枠組みを提案する。具体的には、局所的なメトリックマップを構築することで、不完全な観測データを明示的に集約し、重複を除去する一方で、グローバルなトポロジカルマップを用いてナビゲーションの依存関係をモデル化する。このハイブリッド設計により、VLNに求められる短期間の推論と長期的な計画の両方の要件をバランスよく満たすことが可能となる。さらに、このハイブリッドマップを基盤として、マルチモーダルマップ表現を学習するための事前学習フレームワークを設計した。これにより、空間認識を強化したクロスモーダル推論が実現され、言語誘導型ナビゲーションタスクの達成を促進する。広範な実験により、マップベースの事前学習アプローチがVLNにおいて有効であることが確認され、提案手法は4つのVLNベンチマークにおいて最先端の性能を達成した。