17日前

BabyWalk:ベビーステップを踏むことで視覚言語ナビゲーションをより遠くまで進める

Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene Ie, Fei Sha
BabyWalk:ベビーステップを踏むことで視覚言語ナビゲーションをより遠くまで進める
要約

視覚・言語ナビゲーション(VLN)における自律エージェントにとって、指示に従う能力は根本的な重要性を持つ。本論文では、短いナビゲーションパスから構成されるコーパスから学習する際、エージェントが長距離のパスをどのようにナビゲートできるかを検討する。我々は、既存の最先端エージェントが十分な汎化性能を発揮しないことを示す。この課題に対処するため、長距離の指示をより短い指示(BabySteps)に分解し、順次実行することでナビゲーションを学習する新しいVLNエージェント「BabyWalk」を提案する。本エージェントは、過去の経験を未来のステップの文脈として活用するための特別な設計されたメモリバッファを用いる。学習プロセスは2段階から構成される。第1段階では、エージェントは示範からの模倣学習(imitation learning from demonstration)によりBabyStepsを達成する。第2段階では、段階的(curriculum-based)な強化学習を用いて、徐々に長くなる指示を伴うナビゲーションタスクにおいて報酬を最大化するように学習する。本研究では、長距離ナビゲーションタスクを対象とした2つの新しいベンチマークデータセットを構築し、既存のデータセットと併用してBabyWalkの汎化能力を評価した。実験結果から、BabyWalkは複数の評価指標において最先端の性能を達成しており、特に長距離の指示を正確に追随する能力が顕著であることが示された。コードおよびデータセットは、プロジェクトページ(https://github.com/Sha-Lab/babywalk)にて公開されている。

BabyWalk:ベビーステップを踏むことで視覚言語ナビゲーションをより遠くまで進める | 最新論文 | HyperAI超神経