
要約
ディープラーニングは、視覚・言語ナビゲーション(Vision-and-Language Navigation: VLN)をはじめとする複雑な問題の解決能力を飛躍的に向上させた。VLNの課題は、自然言語による指示に基づき、視覚的情報のみを用いてエージェントが目的地点までナビゲートすることである。しかし、従来の研究では、離散的な行動空間を持つナビゲーショングラフとしてこの問題を定式化していた。本研究では、エージェントをナビゲーショングラフから解放し、連続的な3D再構成環境におけるより複雑なVLN設定を提案する。本研究で提示する設定であるRobo-VLNは、現実世界のナビゲーションに近い課題を再現しており、より長い軌道長、連続的な行動空間、障害物の存在といった課題を含んでいる。我々は、離散的VLNにおける最先端手法を参考にした一連のベースラインを提供したが、これらの手法が本設定では効果が劣ることを示した。さらに、タスクを専門化された高レベルおよび低レベルのポリシーに分解することで、より効果的にこの課題に取り組むことができるという提案を行う。広範な実験を通じて、階層的な意思決定、モジュール化された学習、および推論と模倣の分離を活用することで、提案する階層的クロスモーダル(Hierarchical Cross-Modal: HCM)エージェントがすべての主要指標において既存のベースラインを上回り、Robo-VLNのための新たなベンチマークを確立した。