16日前
止まる方法を学ぶ:都市部における視覚言語ナビゲーションのためのシンプルでありながら効果的なアプローチ
Jiannan Xiang, Xin Eric Wang, William Yang Wang

要約
ビジョン・アンド・ランゲージ・ナビゲーション(VLN)は、エージェントが自然言語の指示に従い、現実世界の環境内で指定された目的地へナビゲートするという、自然言語の意味を環境に接地するタスクである。このタスクにおける主要な課題は、特に複雑な屋外環境において、正しい場所を認識し、適切に停止することである。従来の手法は、STOP行動を他の行動と同等に扱っているため、エージェントが正しく道を進んでいても、目的地に到達した際に停止できず、望ましくない挙動を示す傾向がある。そこで本研究では、STOP行動と他の行動を明確に区別するシンプルかつ効果的なポリシーモジュール「Learning to Stop(L2Stop)」を提案する。本手法は、挑戦的な都市環境向けVLNデータセットTouchdownにおいて、従来の最先端手法を上回る性能を達成し、成功確率(Edit Distanceで重み付けされた)(SED)においてベースライン比で6.89%(絶対値)の向上を実現した。