
摘要
在繁忙的城市环境中,现有的目标检测、分割与跟踪方法在严重遮挡情况下表现不佳。真实场景中的遮挡标注数据极为稀缺(即使在大型数据集内也是如此),而合成数据则存在域差距问题,导致难以显式建模和学习遮挡现象。为此,本文提出一种融合真实世界与合成世界优势的自动遮挡监督新方法,利用一种广泛可得的大规模数据源:长期静止网络摄像头对街道路口拍摄的延时影像(持续数周、数月乃至数年)。我们构建了一个全新的数据集——《观看与学习延时影像》(Watch and Learn Time-lapse, WALT),包含12个摄像头(4K与1080p分辨率)在一年时间内对城市环境的持续记录。我们以一种创新方式利用这些真实数据,自动挖掘大量无遮挡物体,并将其合成回同一视角中,从而生成逼真的遮挡场景。这种基于时间跨度的自监督学习机制,足以支持非模态(amodal)网络学习物体、遮挡物与被遮挡部分之间的分层表征。我们进一步展示了如何加速无遮挡物体的发现过程,并揭示该发现过程的置信度与遮挡物体训练的速率及精度之间的关联。经过数日的自动观察与学习,该方法在检测与分割被遮挡的人体与车辆方面,显著优于依赖人工标注的非模态方法,展现出卓越的性能提升。