
摘要
深度神经网络可以使用丰富的潜在表示来建模图像,但它们无法以人类可感知的方式自然地概念化物体类别的结构。本文旨在解决在无监督的情况下学习图像建模过程中物体结构的问题。我们提出了一种自编码框架,用于发现作为显式结构表示的地标(landmarks)。编码模块输出地标坐标,其有效性通过反映地标必要属性的约束条件来保证。解码模块将这些地标作为端到端可微框架中的一部分可学习输入表示。我们发现的地标具有语义意义,并且比先前方法发现的地标更能预测人工标注的地标。此外,我们的地标坐标也是预训练深度神经网络表示在识别视觉属性时的补充特征。另外,所提出的方法自然地创建了一个无监督且可感知的接口,用于操纵物体形状并以可控结构解码图像。项目网页位于 http://ytzhang.net/projects/lmdis-rep