SOON:グラフベース探索を活用したシナリオ指向型オブジェクトナビゲーション

3Dエンベデッド環境の任意の位置から、言語による誘導に従って人間のように目標へとナビゲートする能力は、知能ロボットにおける「聖杯」ともいえるゴールの一つである。しかし、現存する多数の視覚ナビゲーションベンチマークは、固定された出発点から、段階的な手順を詳細に記述した複雑な指示に従って目標へとナビゲートすることに焦点を当てており、現実世界の課題とは乖離している。現実の状況では、人間は対象物およびその周囲の様子を説明するのみで、ロボットに任意の位置からナビゲーションを開始するよう求める。このような状況に即した課題を提示するために、本論文では「シナリオ指向型オブジェクトナビゲーション(Scenario Oriented Object Navigation: SOON)」という新たなタスクを導入する。このタスクでは、エージェントが3Dエンベデッド環境内の任意の位置から出発し、シーンの記述に従って目標オブジェクトを局所化するナビゲーションを実行する必要がある。本タスクの解決に向けて、我々は新しいグラフベース探索(Graph-based Exploration: GBE)手法を提案する。この手法はナビゲーション状態をグラフとしてモデル化し、グラフから知識を学習する新たなアプローチを導入することで、部分最適な経路を学習することにより、学習の安定性を向上させる。さらに、本研究では、大規模な新ベンチマーク「Anywhere to Object(FAO)」データセットを提案する。ターゲットの曖昧性を回避するため、FAOにおける記述は、オブジェクトの属性、オブジェクト間の関係、領域の記述、近隣領域の記述など、豊富な意味的シーン情報を含んでいる。実験の結果、提案するGBE手法は、FAOおよびR2Rデータセットの両方において、従来の最先端手法を上回る性能を達成した。また、FAOデータセットに対するアブレーションスタディにより、そのデータセットの質の高さが実証された。