
摘要
我们提出了一种通过观看人类面部说话、笑和随时间移动的视频来自监督学习面部属性的框架。为了完成这一任务,我们引入了一个网络——面部属性网络(FAb-Net),该网络被训练用于将同一视频中的人脸轨迹的多个帧嵌入到一个共同的低维空间中。通过这种方法,我们做出了三项贡献:首先,我们展示了该网络可以通过为每个帧预测置信度/注意力掩码来利用多个源帧的信息;其次,我们证明了使用课程学习策略可以改进所学到的嵌入;最后,我们展示了该网络能够学习到有意义的面部嵌入,编码关于头部姿态、面部标志点和面部表情(即面部属性)的信息,而无需任何标记数据的监督。在这些任务上,我们的方法与现有的最先进自监督方法相当或更优,并且接近有监督方法的性能。