17日前
視覚言語ナビゲーションのための汎用エージェントを事前学習を用いて学習するための試み
Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

要約
視覚環境において自然言語による指示に従ってナビゲーションを行うことは、エージェントが受け取るマルチモーダルな入力が極めて多様であり、新しいタスクに対するトレーニングデータがしばしば限られているため、困難な課題である。本論文では、視覚・言語ナビゲーション(VLN)タスクにおける、初めての事前学習と微調整(fine-tuning)のパラダイムを提示する。大規模な画像-テキスト-行動の三つ組みデータを自己教師学習(self-supervised learning)の形で学習させることで、事前学習モデルは視覚的環境および言語指示の汎用的な表現を獲得する。このモデルは、既存のVLNフレームワークに簡単に組み込むことが可能であり、その結果、本研究で提案するエージェント「Prevalent」が得られる。Prevalentは新しいタスクにおいてより効率的に学習でき、未経験の環境においても優れた一般化性能を発揮する。性能は3つのVLNタスクにおいて検証された。Room-to-Roomベンチマークでは、パス長に重みをかけた成功確率において、従来の最良手法の47%から51%へと向上した。さらに、学習された表現は他のVLNタスクへも転移可能である。最近の2つのタスク、視覚・対話ナビゲーションおよび「Help, Anna!」においても、既存手法を大きく上回る性能を達成し、新たな最良結果を記録した。