12日前

新しい道筋:合成指示と模倣学習を用いた視覚言語ナビゲーションのスケーリング

Aishwarya Kamath, Peter Anderson, Su Wang, Jing Yu Koh, Alexander Ku, Austin Waters, Yinfei Yang, Jason Baldridge, Zarana Parekh
新しい道筋:合成指示と模倣学習を用いた視覚言語ナビゲーションのスケーリング
要約

最近の視覚言語ナビゲーション(Vision-and-Language Navigation: VLN)に関する研究では、人間の自然言語によるナビゲーション指示を、写実的な環境で実行できる強化学習(RL)エージェントの訓練が進められている。これは、人間の指示に従うことができるロボットの実現に向けた一歩である。しかし、人間が作成した指示データの不足と、訓練環境の多様性の限界により、これらのエージェントは複雑な言語の意味的根拠(language grounding)や空間的言語理解において依然として困難を抱えている。これまで、インターネットから得た大規模なテキストデータおよび画像-テキストデータセットを用いた事前学習が広く検討されてきたが、その効果は限定的であった。本研究では、合成された指示を用いた大規模なデータ拡張に着目した。具体的には、360度パノラマで高密度に撮影された500以上の屋内環境を用い、これらのパノラマ画像を経由するナビゲーション経路を構築し、高品質な多言語ナビゲーション指示生成器「Marky」を用いて各経路に対して視覚的に根拠づけられた指示を生成した。さらに、画像対画像GANを活用して、新しい視点からの画像観測データも合成した。その結果得られた420万件の指示-経路ペアからなるデータセットは、既存の人工ラベル付きデータセットと比べて2桁以上大きく、環境や視点の多様性も大幅に拡張された。このような大規模なデータを効率的に活用するため、単純なTransformerベースのエージェントを模倣学習(imitation learning)で訓練した。挑戦的なRxRデータセットにおいて、本手法は既存のすべてのRLエージェントを上回り、既知の環境では従来の最良性能(NDTW: 71.1)を79.1まで向上させ、未知のテスト環境でも64.6から66.8まで改善した。本研究は、指示追従エージェントの性能向上に向けた新たな道筋を示しており、大規模な模倣学習と合成指示生成技術の開発の重要性を強調している。

新しい道筋:合成指示と模倣学習を用いた視覚言語ナビゲーションのスケーリング | 最新論文 | HyperAI超神経