
摘要
当前最先进的导航方法依赖于空间记忆机制,以实现对新环境的泛化能力,但其占用地图仅能捕捉智能体直接观测到的几何结构。为此,我们提出“占用状态预测”(occupancy anticipation)机制,即智能体利用自身视角的RGB-D观测,推断可见区域之外的占据状态。通过这一机制,智能体能够更快速地构建空间认知,从而显著提升在三维环境中的探索与导航效率。我们的模型通过融合自身视角图像与俯视地图中的上下文信息,成功预测出更广阔范围的环境地图,性能显著优于多个强基准方法。此外,在Gibson和Matterport3D数据集上的顺序决策任务(包括探索与导航)中,该模型的表现超越了当前最先进的方法。本研究为2020年Habitat PointNav挑战赛的优胜方案。项目主页:http://vision.cs.utexas.edu/projects/occupancy_anticipation/