17日前

屋外ビジョン・言語ナビゲーションのためのマルチモーダルテキストスタイル転送

Wanrong Zhu, Xin Eric Wang, Tsu-Jui Fu, An Yan, Pradyumna Narayana, Kazoo Sone, Sugato Basu, William Yang Wang
屋外ビジョン・言語ナビゲーションのためのマルチモーダルテキストスタイル転送
要約

自然言語処理(NLP)における最も挑戦的な課題の一つは、視覚的に根拠付けられた言語理解および推論である。屋外ビジョン・言語ナビゲーション(VLN)は、エージェントが自然言語による指示に従い、現実の都市環境をナビゲートするというタスクであり、その代表例である。複雑な都市風景を正確に描写する人間によるアノテーション付きの指示データが不足しているため、屋外VLNは依然として解決が困難な課題の一つである。本研究では、外部のマルチモーダルリソースを活用して屋外ナビゲーションタスクにおけるデータ不足を緩和するため、マルチモーダルテキストスタイル転送(MTST)学習アプローチを提案する。まず、Google Maps APIによって生成された指示のスタイルを転送することでナビゲーションデータを拡張し、その拡張された外部屋外ナビゲーションデータセットを用いてナビゲーターを事前学習する。実験結果から、本研究のMTST学習アプローチはモデルに依存せず、屋外VLNタスクにおいてベースラインモデルを著しく上回ることが示された。特にテストセットにおいて、タスク完了率を相対的に8.7%向上させた。