
摘要
视觉感知的一个关键挑战是从受复杂干扰因素(如视角、遮挡、运动和变形)影响的视觉测量中提取三维物体及其类别的抽象模型。基于最近提出的视角分解思想,我们提出了一种新方法,该方法仅需大量物体图像而无需其他监督,即可提取出密集的以物体为中心的坐标框架。该坐标框架对图像的变形具有不变性,并且伴随有一个密集等变标记神经网络,可以将图像像素映射到相应的物体坐标。我们展示了该方法在简单关节物体和可变形物体(如人脸)上的适用性,通过从随机合成变换或光流对应关系中学习嵌入,整个过程无需任何人工监督。
视觉感知的一个关键挑战是从受复杂干扰因素(如视角、遮挡、运动和变形)影响的视觉测量中提取三维物体及其类别的抽象模型。基于最近提出的视角分解思想,我们提出了一种新方法,该方法仅需大量物体图像而无需其他监督,即可提取出密集的以物体为中心的坐标框架。该坐标框架对图像的变形具有不变性,并且伴随有一个密集等变标记神经网络,可以将图像像素映射到相应的物体坐标。我们展示了该方法在简单关节物体和可变形物体(如人脸)上的适用性,通过从随机合成变换或光流对应关系中学习嵌入,整个过程无需任何人工监督。