16日前

リタッチダウン：言語接地タスクにおけるStreet View向けの共有可能なリソースとしてのStreetLearnへのタッチダウンの追加

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski

要約

タッチダウンデータセット（Chenら、2019年）は、ニューヨーク市内の街路をナビゲーションするための人物アノテーターによる指示および、特定の地点における空間的記述の解釈に関する指示を提供している。タッチダウンタスクに向けた研究を広く促進するため、本研究ではタッチダウンに必要となる29,000枚の原始ストリートビューパノラマを公開する。これらのパノラマは、StreetLearnデータセットの公開プロセス（Mirowskiら、2019年）に従い、個人を特定できる情報の有無を確認し、必要に応じてぼかし処理を施している。これらは既にStreetLearnデータセットに追加されており、これまでのStreetLearn用に使用された同一のプロセスにより取得可能である。また、タッチダウンタスクの2つの課題—視覚言語ナビゲーション（VLN）および空間的記述解釈（SDR）—に対応する参考実装も提供している。本研究では、我々のモデルの結果をChenら（2019年）の報告値と比較し、StreetLearnに追加したパノラマがタッチダウンの両タスクを完全にサポートできることを示した。さらに、今後の研究や比較のための有効な基盤として利用可能であることを確認した。