19日前

ナビゲーションのための再帰的ビジョン・言語BERT

Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, Stephen Gould
ナビゲーションのための再帰的ビジョン・言語BERT
要約

視覚言語(Vision-and-Language, V&L)BERTの導入により、多くの視覚言語タスクの精度は著しく向上している。しかし、視覚言語ナビゲーション(Vision-and-Language Navigation, VLN)におけるその応用は依然として限定的である。その一因として、VLNに存在する部分観測マルコフ意思決定過程(partially observable Markov decision process)にBERTアーキテクチャを適応させる困難さが挙げられる。これは、過去の履歴に依存するアテンション機構と意思決定を必要とするためである。本論文では、VLNに適した時系列に敏感な再帰型BERTモデルを提案する。具体的には、エージェントのクロスモーダル状態情報を維持する再帰関数をBERTモデルに組み込む。R2RおよびREVERIEにおける広範な実験を通じて、本モデルがより複雑なエンコーダデコーダモデルを置き換え、最先端の性能を達成できることを示した。さらに、本手法は他のTransformerベースのアーキテクチャへも一般化可能であり、事前学習が可能であり、ナビゲーションタスクと参照表現タスクを同時に解く能力を有している。

ナビゲーションのための再帰的ビジョン・言語BERT | 論文 | HyperAI超神経