Meta-Explore:シーンオブジェクトスペクトル接地を用いた探索的階層的視覚言語ナビゲーション

視覚言語ナビゲーション(VLN)における主な課題は、未確認の環境において自然言語の指示を正しく理解する方法にある。従来のVLNアルゴリズムの主な制限は、ある行動が誤った場合、エージェントが指示に従えなくなったり、不要な領域を探索し続けたりすることで、回復不能な経路に陥ってしまう点にある。この問題に対処するため、我々は、最近の誤った行動を修正するための活用方策(exploitation policy)を用いる階層的ナビゲーション手法「Meta-Explore」を提案する。本研究では、以前に訪れた状態ではなく、訪問されていないが観測可能な状態の中から適切に選ばれた局所的ゴールへとエージェントを移動させる活用方策が、従来のアプローチを上回ることを示す。また、意味的に意味のある手がかりを用いて、後悔すべき探索を想像する必要性を強調する。本手法の鍵となるのは、エージェント周辺の物体配置をスペクトル領域で理解することにある。具体的には、検出された物体に対してカテゴリごとに2次元フーリエ変換を行う新たな視覚表現「シーンオブジェクトスペクトル(Scene Object Spectrum: SOS)」を提案する。活用方策とSOS特徴量を組み合わせることで、エージェントは有望な局所的ゴールを選択し、経路を修正することが可能になる。我々の手法は、R2R、SOON、REVERIEの3つのVLNベンチマークにおいて評価された。Meta-Exploreは他のベースラインを上回り、顕著な汎化性能を示した。さらに、提案するスペクトル領域におけるSOS特徴量を用いた局所ゴール探索により、SOONベンチマークにおける成功確率が17.1%、SPL(Success Rate weighted by Path Length)が20.6%向上した。