2ヶ月前

視覚言語ナビゲーション:実環境における視覚的に基づいたナビゲーション指示の解釈

Peter Anderson; Qi Wu; Damien Teney; Jake Bruce; Mark Johnson; Niko Sünderhauf; Ian Reid; Stephen Gould; Anton van den Hengel
視覚言語ナビゲーション:実環境における視覚的に基づいたナビゲーション指示の解釈
要約

自然言語の指示を実行できるロボットは、ジェッツンズ(The Jetsons)というアニメシリーズが注意深いロボット助手たちによって仲介される余暇の生活を想像した以前から夢であり続けています。この夢は未だに遠く感じられますが、最近の視覚と言語に関する手法の進歩により、密接に関連する分野で驚異的な進展が見られています。これは重要です。なぜなら、ロボットが見たものを基にして自然言語のナビゲーション指示を解釈することは、視覚質問応答(Visual Question Answering)と類似した視覚と言語処理であるからです。両方のタスクは、視覚的に根ざした系列対系列翻訳問題として解釈でき、多くの同じ手法が適用可能であることが示されています。視覚的に根ざしたナビゲーション指示の解釈に視覚と言語の手法を適用し、その研究を促進するために、我々は Matterport3D シミュレーターを提示します。これは実際の画像に基づいた大規模な強化学習環境です。このシミュレーターは将来、様々な具現化された視覚と言語タスクをサポートする可能性があり、実際の建物における視覚的に根ざした自然言語ナビゲーションの最初のベンチマークデータセット -- Room-to-Room (R2R) データセットを提供しています。

視覚言語ナビゲーション:実環境における視覚的に基づいたナビゲーション指示の解釈 | 論文 | HyperAI超神経