
摘要
人类具有非凡的能力,即使在物体的部分被遮挡时也能将其作为一个整体进行感知。这种无模态感知能力构成了我们对世界的知觉和认知理解的基础。为了使机器人具备这种推理能力,我们提出了一项新的任务,命名为无模态全景分割(Amodal Panoptic Segmentation)。该任务的目标是同时预测物质类可见区域的像素级语义分割标签以及物体类可见和被遮挡区域的实例分割标签。为促进这一新任务的研究,我们在两个已建立的基准数据集上扩展了像素级无模态全景分割标签,并将其公开发布为 KITTI-360-APS 和 BDD100K-APS。我们提出了几种强大的基线模型,并引入了无模态全景质量(Amodal Panoptic Quality, APQ)和无模态解析覆盖率(Amodal Parsing Coverage, APC)指标来以可解释的方式量化性能。此外,我们提出了新型的无模态全景分割网络(Amodal Panoptic Segmentation Network, APSNet),作为解决此任务的第一步,通过显式建模遮挡物与被遮挡物之间的复杂关系来实现。广泛的实验评估表明,APSNet 在这两个基准数据集上均达到了最先进的性能,并且更重要的是展示了无模态识别的实用性。这些基准数据集可在 http://amodal-panoptic.cs.uni-freiburg.de 获取。