19日前
グローバルを思考し、ローカルに行動する:視覚・言語ナビゲーションのための二重スケールグラフ変換器
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev

要約
未知環境において言語指示に従ってナビゲーションを行うことは、自律的エンボディドエージェントにとって難しい課題である。エージェントは視覚的シーンにおける言語の意味を正確に把握するだけでなく、ターゲットに到達するための環境探索も行う必要がある。本研究では、長期的な行動計画と細粒度なクロスモーダル理解を統合するための二重スケールグラフトランスフォーマー(DUET)を提案する。本手法は、グローバルな行動空間における効率的な探索を可能にするために、リアルタイムでトポロジカルマップを構築する。大規模な行動空間における推論の複雑さと細粒度な言語の意味付与のバランスを取るために、グラフトランスフォーマーを用いて、局所観測に対する細粒度な符号化とグローバルマップ上の粗粒度な符号化を動的に統合する。提案手法DUETは、目的志向型視覚言語ナビゲーション(VLN)ベンチマークREVERIEおよびSOONにおいて、既存の最先端手法を顕著に上回り、細粒度VLNベンチマークR2Rにおける成功確率の向上も達成した。