
摘要
我们提出Occlusion-Net,一种在高度自监督条件下预测物体被遮挡关键点在2D和3D空间中位置的框架。该方法以现成的目标检测器(如Mask R-CNN)作为输入,该检测器仅基于可见关键点的标注进行训练,这也是本工作中所使用的唯一监督信号。随后,图编码器网络显式地识别不可见的边,而图解码器网络则对初始检测器输出的被遮挡关键点位置进行修正。本工作的核心在于引入了一种三焦点张量损失(trifocal tensor loss),该损失通过物体在其他视角中可见的遮挡关键点提供间接的自监督信号,从而指导模型学习被遮挡关键点的准确位置。随后,2D关键点被输入至一个3D图神经网络,该网络利用自监督的重投影损失估计物体的3D形状与相机位姿。在测试阶段,我们的方法在单视角下成功实现了在多种严重遮挡场景中的关键点定位。我们在合成CAD数据以及大量拍摄于城市繁忙交叉路口的车辆图像数据集上验证并评估了该方法的有效性。作为一项有趣的附带发现,我们还对比了人类标注的不可见关键点与由几何三焦点张量损失推导出的关键点位置的准确性。