16日前

視覚言語ナビゲーションにおける履歴を意識したマルチモーダルトランスフォーマー

Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev
視覚言語ナビゲーションにおける履歴を意識したマルチモーダルトランスフォーマー
要約

視覚言語ナビゲーション(VLN)は、実世界のシーンにおいて指示に従い、自律的に移動する視覚エージェントの構築を目的としています。過去に訪れた場所や取った行動を記憶するため、従来の多数のVLNアプローチは再帰的状態(recurrent states)を用いたメモリ機構を採用しています。一方、本研究では、長時間スパンの履歴情報をマルチモーダル意思決定に組み込むため、履歴に配慮したマルチモーダル変換器(History Aware Multimodal Transformer; HAMT)を提案します。HAMTは階層的視覚変換器(Hierarchical Vision Transformer; ViT)を用いて、過去のすべてのパノラマ観測を効率的に符号化します。具体的には、まず個々の画像をViTで符号化し、次にパノラマ観測内の画像間の空間的関係をモデル化し、さらに履歴におけるパノラマ間の時系列的関係を考慮します。その後、テキスト情報、履歴情報、および現在の観測を統合的に扱い、次の行動を予測します。まず、単一ステップの行動予測や空間的関係予測といった複数の代理タスクを用いてHAMTをエンドツーエンドで訓練した後、強化学習を用いてナビゲーション方策をさらに最適化します。HAMTは、細粒度の指示に対応するVLN(R2R、RxR)、高レベルの指示(R2R-Last、REVERIE)、対話型ナビゲーション(CVDN)、および長時間スパンのVLN(R4R、R2R-Back)を含む広範なVLNタスクにおいて、新たな最先端の性能を達成しました。特に、長い軌道を要するナビゲーションタスクにおいて、HAMTの有効性が顕著に示されました。

視覚言語ナビゲーションにおける履歴を意識したマルチモーダルトランスフォーマー | 最新論文 | HyperAI超神経