
摘要
在野外预测面部属性是一项具有挑战性的任务,因为面部存在复杂的变异。我们提出了一种新颖的深度学习框架,用于在野外进行属性预测。该框架级联了两个卷积神经网络(CNN),即LNet和ANet,这两个网络通过属性标签联合微调,但预训练策略不同。LNet通过大量通用物体类别进行预训练,以实现面部定位;而ANet则通过大量面部身份数据进行预训练,以实现属性预测。这一框架不仅大幅超越了现有方法,还揭示了关于学习面部表示的一些有价值的事实。它展示了如何通过不同的预训练策略来提高面部定位(LNet)和属性预测(ANet)的性能。它揭示了一个事实:尽管LNet的滤波器仅使用图像级别的属性标签进行微调,但它们在整个图像上的响应图对人脸位置有很强的指示作用。这一发现使得LNet可以在只有图像级别注释的情况下进行面部定位训练,而无需使用人脸边界框或关键点,这些通常是所有属性识别工作的必要条件。它还表明,在通过大量面部身份数据预训练之后,ANet的高层隐藏神经元能够自动发现语义概念,并且在通过属性标签进行微调后,这些概念得到了显著丰富。每个属性都可以用这些概念的一个稀疏线性组合来很好地解释。