16日前

視覚言語ナビゲーションにおけるランダム環境ミックスアップ

Chong Liu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang, Zongyuan Ge, Yi-Dong Shen
視覚言語ナビゲーションにおけるランダム環境ミックスアップ
要約

視覚言語ナビゲーション(Vision-Language Navigation: VLN)タスクでは、エージェントが視覚的情報を受容しながら自然言語による指示を理解し、段階的にナビゲーションを行う必要があります。このタスクは、データ規模が小さく、ナビゲーション空間が広大なことによるデータバイアスの不均衡(データバイアスの乖離比)によって困難さを増しています。従来の研究では、データバイアスを軽減するための多様なデータ拡張手法が提案されていますが、それらは異なる家屋シーン間でのデータバイアスを明示的に低減するものではありません。その結果、エージェントは既に見ていたシーンに過剰に適合(オーバーフィット)し、未確認のシーンでは劣ったナビゲーション性能を示すという問題が生じます。この課題に対処するため、本研究では「ランダム環境ミックスアップ(Random Environmental Mixup: REM)」という新しいデータ拡張手法を提案します。REMは、環境をミックスアップすることで、異なる家屋シーン間をクロス接続した拡張データを生成します。具体的には、各シーンに対して、部屋の接続グラフに基づいて重要な視点(キービュー)を選定します。その後、異なるシーンのキービューをクロス接続して拡張されたシーンを構築し、その拡張シーン上で拡張された指示-パスペアを生成します。標準ベンチマークデータセットにおける実験結果から、REMによるデータ拡張が、見ている環境と見ない環境におけるエージェントの性能差を小さくし、全体的なナビゲーション性能を向上させることを確認しました。これにより、本モデルは現在知られている最も優れたVLNアプローチとして、標準VLNベンチマークで最高の性能を達成しました。コードは公開されています:https://github.com/LCFractal/VLNREM。

視覚言語ナビゲーションにおけるランダム環境ミックスアップ | 最新論文 | HyperAI超神経