6ヶ月前

概要

最近の視覚・言語ナビゲーション（VLN）に関する研究のいくつかでは、事前学習（pre-training）が導入されている。しかし、従来のVLN向け事前学習手法は、将来の行動を予測する能力に欠けているか、あるいはナビゲーションの経路文脈を無視しているという課題を抱えている。これらはグリーディなナビゲーションプロセスにおいて不可欠な要素である。本研究では、時空間的な視覚・テキスト対応関係の学習およびエージェントの意思決定能力の向上を促進するため、過去の観測情報を活用し、将来の行動予測を可能にするVLN特有の目的関数を採用した、新たな履歴・順序に配慮した事前学習枠組み（HOP: History-and-Order aware Pre-training）を提案する。具体的には、一般的に用いられるマスク言語モデリング（MLM）およびトラジェクトリ・インストラクションマッチング（TIM）に加えて、時間的順序情報をモデル化するための2つの代理タスクを設計した。すなわち、トラジェクトリ順序モデリング（TOM）およびグループ順序モデリング（GOM）である。さらに、過去の視覚的認識を考慮した行動予測タスク（APH: Action Prediction with History）を導入することで、ナビゲーション行動予測の性能を向上させた。4つの下流タスク（R2R、REVERIE、NDH、RxR）における広範な実験結果から、提案手法が複数の最先端エージェントと比較して優れた効果を示すことが明らかになった。

ソースPDF