
要約
視覚・言語ナビゲーション(Vision-and-Language Navigation: VLN)では、エージェントが自然言語による指示に従って環境内をナビゲートする必要がある。エージェントの訓練に利用可能なデータが限られていること、およびナビゲーション環境の多様性が有限であることに起因し、エージェントが新しい未観測の環境に一般化することは困難である。この課題に対処するために、本研究では「EnvEdit」というデータ拡張手法を提案する。この手法は、既存の環境を編集することで新たな環境を生成し、より汎化性能の高いエージェントの訓練に活用する。生成された拡張環境は、既存環境と比較して、スタイル、オブジェクトの外観、オブジェクトのクラスという3つの異なる側面で変化が生じる。これらの編集済み環境上で訓練を行うことで、エージェントが既存環境に過剰に適合(オーバーフィット)するのを防ぎ、新たな未観測環境への一般化性能を向上させることができる。実験的に、Room-to-Roomおよびマルチリンガル Room-Across-Roomの両データセットにおいて、事前学習済みおよび非事前学習済みのVLNエージェントに対して、本手法がすべての評価指標で顕著な性能向上を達成し、テストリーダーボード上で新たな最先端(state-of-the-art)の成績を記録した。さらに、異なる編集環境で拡張されたVLNエージェントをアンサンブルすることで、これらの編集手法が相補的であることを示した。コードとデータは、https://github.com/jialuli-luka/EnvEdit にて公開されている。