13 天前

WebFace260M:一个揭示百万级深度人脸识别能力的基准数据集

Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Jiwen Lu, Dalong Du, Jie Zhou
WebFace260M:一个揭示百万级深度人脸识别能力的基准数据集
摘要

本文提出一个全新的百万级人脸基准数据集,包含噪声数据400万身份/2.6亿张人脸(WebFace260M)和经过清洗的200万身份/4200万张人脸(WebFace42M)训练数据,以及一个精心设计的时间约束评估协议。首先,我们收集了400万个人名列表,并从互联网上下载了2.6亿张人脸图像。随后,我们设计了一种基于自训练的自动化清洗(Cleaning Automatically utilizing Self-Training, CAST)流程,高效且可扩展地对庞大的WebFace260M数据集进行净化处理。据我们所知,清洗后的WebFace42M是目前规模最大的公开人脸识别训练数据集,有望缩小学术界与工业界在数据资源上的差距。针对实际应用场景,我们构建了“推理时间约束下的人脸识别”(Face Recognition Under Inference Time conStraint, FRUITS)评估协议及配套测试集,以全面评估各类人脸匹配算法的性能。依托该基准,我们深入研究了百万级规模下的人脸识别问题。为此,我们开发了一种分布式训练框架,能够在不损害模型性能的前提下高效训练人脸识别模型。基于WebFace42M数据集,我们在具有挑战性的IJB-C数据集上将相对失败率降低了40%,并在NIST-FRVT评测中以430个参赛条目中的第三名成绩位列前茅。即使仅使用10%的数据(WebFace4M),其性能也优于现有的公开训练数据集。此外,我们在FRUITS-100ms/500ms/1000ms多时间约束协议下,针对丰富的属性测试集建立了全面的基线模型,涵盖MobileNet、EfficientNet、AttentionNet、ResNet、SENet、ResNeXt和RegNet等多个网络家族。基准数据集官网:https://www.face-benchmark.org

WebFace260M:一个揭示百万级深度人脸识别能力的基准数据集 | 最新论文 | HyperAI超神经