
摘要
我们提出了一种无需任何人工监督即可学习视觉对象(如面部的眼睛和鼻子)地标检测器的方法。我们将此问题转化为生成图像的任务,这些图像结合了在第一个示例图像中看到的对象外观与在第二个示例图像中看到的对象几何结构,其中两个示例之间的差异在于视角变化和/或对象变形。为了分解外观和几何结构,我们在几何提取过程中引入了一个紧密的瓶颈,该瓶颈选择并提炼出与几何相关的特征。与通常使用生成对抗网络的标准图像生成问题相比,我们的生成任务同时依赖于外观和几何结构,因此显著减少了模糊性,以至于采用简单的感知损失公式就足够了。我们展示了该方法可以通过合成图像变形或视频来学习对象地标,全程无需人工监督,并且性能优于当前最先进的无监督地标检测器。此外,我们还证明了该方法适用于多种数据集——包括面部、人体、3D对象和数字——而无需进行任何修改。