16 天前

视觉-语言范式下的通用面部表征学习

Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
视觉-语言范式下的通用面部表征学习
摘要

如何学习一种通用的人脸表征,以全面提升各类人脸分析任务的性能?本文朝着这一目标迈出了一步。本文系统研究了预训练模型在人脸分析任务上的迁移性能,并提出了一种名为 FaRL(General Facial Representation Learning)的框架,采用视觉-语言联合建模的方式实现通用人脸表征学习。该框架一方面通过对比损失(contrastive loss)从图像-文本对中学习高层次的语义信息;另一方面,为进一步增强人脸表征能力,我们引入了掩码图像建模(masked image modeling)机制,以同时挖掘低层次的视觉信息。我们在 LAION-FACE 数据集上进行预训练,该数据集包含大量人脸图像与文本配对数据,并在多个下游任务上评估了所学表征的性能。实验结果表明,FaRL 在迁移性能上优于以往的预训练模型,尤其在小样本(low-data)场景下展现出显著优势。更重要的是,该模型在多项人脸分析任务(包括人脸分割与人脸对齐)上均超越了当前最先进的方法,验证了其强大的泛化能力与表征质量。