2ヶ月前

戦術的なリウィンド:ビジョン・アンド・ランゲージ・ナビゲーションにおけるバックトラッキングによる自己訂正

Liyiming Ke; Xiujun Li; Yonatan Bisk; Ari Holtzman; Zhe Gan; Jingjing Liu; Jianfeng Gao; Yejin Choi; Siddhartha Srinivasa
戦術的なリウィンド:ビジョン・アンド・ランゲージ・ナビゲーションにおけるバックトラッキングによる自己訂正
要約

私たちは、フロンティア認識探索とバックトラッキング(FAST)ナビゲーターを提示します。これは、Andersonら(2018)が提案したRoom-to-Room(R2R)ビジョン・アンド・ランゲージナビゲーションチャレンジにおける行動解釈の一般的なフレームワークであり、最先端の結果を達成しています。自然言語の指示と未知の環境の写実的な画像ビューが与えられた場合、エージェントは出発地点から目標地点までできるだけ早く移動する任務を与えられます。現在までのすべての手法は、局所的な行動決定を行うか、またはビームサーチを使用して全体の軌道を評価しますが、私たちの手法は未観測環境での探査において局所信号と全局信号をバランスよく取り扱います。特に、これにより貪欲に行動しつつ、必要に応じて全局信号を使用してバックトラッキングすることができます。既存の最先端モデルにFASTフレームワークを適用することで、絶対値で6%、相対的に17%の成功率重み付きパス長(SPL)向上が達成されました。