
要約
AIの大きな目標の一つは、自然言語の指示に基づいて正確にナビゲーションできるロボットを開発することである。これには、エージェントがシーンを認識し、言語を理解して接地させ、実世界環境で行動する能力が必要となる。この分野における主要な課題の一つは、訓練中に見られなかった新しい環境でのナビゲーション学習である。既存のアプローチの多くは、見たことのある環境と比べて、未見の環境では著しく性能が低下する。本論文では、汎化可能なナビゲーションエージェントを提案する。当該エージェントは2段階で訓練される。第1段階では、オフポリシーとオンポリシーオプティマイゼーションの両方の利点を組み合わせた混合模倣強化学習(mixed imitation and reinforcement learning)によって訓練を行う。第2段階では、新規導入された「未見」トリプレット(環境、経路、指示)を使用した微調整を行う。「未見」トリプレットを生成するために、「環境ドロップアウト」(environmental dropout)という単純だが効果的な方法を提案し、未見の環境を模倣することで見たことのある環境の変動性が限られている問題を克服する。次に、「ドロップアウト」された環境に対して半教師あり学習(バック翻訳による)を行い、新たな経路と指示を生成する。経験的に示すように、これらのトリプレットを使用して微調整された当該エージェントは汎化能力において大幅に向上しており、「Room-to-Roomタスク」のプライベート未見テストセットにおいて現行最先端アプローチよりも大幅に優れた性能を示し、リーダーボードでトップランクを達成している。