19日前
ラベルなし3D環境からの学習による視覚・言語ナビゲーション
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

要約
視覚言語ナビゲーション(VLN)では、エンベデッドエージェントが自然言語の指示に従って現実的な3D環境内をナビゲートする能力が求められる。既存のVLNアプローチにおける主要な課題の一つは、十分な訓練データの不足であり、その結果、未確認の環境への一般化性能が不十分となる。通常、VLNデータは手動で収集されるが、この方法は高コストであり、スケーラビリティに制約がある。本研究では、HM3Dのラベルなし3D建物900件から自動的に大規模なVLNデータセットを構築することで、データ不足の問題に取り組む。各建物に対してナビゲーショングラフを生成し、2Dから3Dへのオブジェクト予測を、視点間の一貫性を用いて転移することで、擬似3Dオブジェクトラベルを生成する。その後、これらの擬似オブジェクトラベルをプロンプトとして用いて事前学習済み言語モデルを微調整し、指示生成におけるマルチモーダルギャップを軽減する。得られたHM3D-AutoVLNデータセットは、ナビゲーション環境および指示の両面で、既存のVLNデータセットと比べて1桁大きい規模となる。実験的に、HM3D-AutoVLNが得られるVLNモデルの一般化能力を顕著に向上させることを示した。REVERIEおよびSOONデータセットの未確認検証スプリットにおいて、SPL指標でそれぞれ7.1%および8.1%の向上を、最先端技術に対して達成した。