19日前
HOP:視覚言語ナビゲーションのための履歴および順序に配慮した事前学習
Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu

要約
最近の視覚・言語ナビゲーション(VLN)に関する研究のいくつかでは、事前学習(pre-training)が導入されている。しかし、従来のVLN向け事前学習手法は、将来の行動を予測する能力に欠けているか、あるいはナビゲーションの経路文脈を無視しているという課題を抱えている。これらはグリーディなナビゲーションプロセスにおいて不可欠な要素である。本研究では、時空間的な視覚・テキスト対応関係の学習およびエージェントの意思決定能力の向上を促進するため、過去の観測情報を活用し、将来の行動予測を可能にするVLN特有の目的関数を採用した、新たな履歴・順序に配慮した事前学習枠組み(HOP: History-and-Order aware Pre-training)を提案する。具体的には、一般的に用いられるマスク言語モデリング(MLM)およびトラジェクトリ・インストラクションマッチング(TIM)に加えて、時間的順序情報をモデル化するための2つの代理タスクを設計した。すなわち、トラジェクトリ順序モデリング(TOM)およびグループ順序モデリング(GOM)である。さらに、過去の視覚的認識を考慮した行動予測タスク(APH: Action Prediction with History)を導入することで、ナビゲーション行動予測の性能を向上させた。4つの下流タスク(R2R、REVERIE、NDH、RxR)における広範な実験結果から、提案手法が複数の最先端エージェントと比較して優れた効果を示すことが明らかになった。