2ヶ月前
強化されたクロスモーダルマッチングと自己監督イミテーションラーニングを用いた視覚言語ナビゲーション
Xin Wang; Qiuyuan Huang; Asli Celikyilmaz; Jianfeng Gao; Dinghan Shen; Yuan-Fang Wang; William Yang Wang; Lei Zhang

要約
ビジョン言語ナビゲーション(VLN)は、実際の3次元環境内において自然言語の指示に従って具現化されたエージェントをナビゲートするタスクである。本論文では、このタスクにおける3つの重要な課題、すなわちクロスモーダルグラウンディング、不適切なフィードバック、および汎化問題に対処する方法について研究している。まず、強化学習(RL)を用いて局所的にも全局的にもクロスモーダルグラウンディングを強制する新しい「強化クロスモーダルマッチング(RCM)」アプローチを提案する。特に、マッチングクリティックを使用して指示と軌跡との全局的なマッチングを促進する内在報酬を提供し、推論ナビゲータを用いて局所的な視覚シーンでのクロスモーダルグラウンディングを行う。VLNベンチマークデータセットでの評価結果によると、我々のRCMモデルはSPLで以前の手法よりも10%優れており、新たな最先端の性能を達成した。さらに、学習済みポリシーの汎化能力向上のために、自己教師あり模倣学習(Self-Supervised Imitation Learning, SIL)手法を導入し、過去の良き決定を模倣することで未見の環境を探求することを目指している。我々はSILがより良いかつ効率的なポリシーを近似できることを示し、既知と未知の環境間での成功率パフォーマンスギャップが大幅に縮小されること(30.7%から11.7%へ)を確認した。