環境に依存しない多タスク学習による自然言語に基づくナビゲーション

最近の研究動向により、写実的な環境における自然言語に基づくナビゲーションの研究が可能となり、たとえば自然言語の指示に従う、あるいは対話履歴からナビゲーションを行うといったタスクが実現されている。しかし、従来の手法は見たことのある環境における訓練データに過剰に適合(overfit)し、未見の環境への一般化能力に欠ける傾向がある。見慣れた環境と見慣れない環境の間のギャップを埋めるために、我々は以下の2つの新しい視点から汎化性の高いナビゲーションモデルの学習を目指す。(1)視覚言語ナビゲーション(Vision-Language Navigation: VLN)と対話履歴からのナビゲーション(Navigation from Dialog History: NDH)の両タスクにおいて、スムーズに訓練可能なマルチタスクナビゲーションモデルを導入する。このアプローチにより、より豊かな自然言語のガイダンスを得ることができ、タスク間での知識の効果的な転移が可能となる。(2)訓練中に遭遇した環境に依存しない(環境不変の)ナビゲーション方策の表現を学習する。これにより、未見の環境における一般化性能が向上する。広範な実験の結果、環境不変なマルチタスク学習は、見慣れた環境と見慣れない環境間の性能ギャップを顕著に縮小し、特にVLNでは成功率の相対評価で16%、NDHではゴール到達進捗(goal progress)で120%の性能向上が達成された。本研究のCVDNリーダーボードへの提出は、ホールドアウトテストセットにおけるNDHタスクにおいて、新たな最先端(state-of-the-art)の記録を樹立した。コードは以下のURLから公開されている:https://github.com/google-research/valan。