1 个月前

神经聚合网络用于视频人脸识别

Jiaolong Yang; Peiran Ren; Dongqing Zhang; Dong Chen; Fang Wen; Hongdong Li; Gang Hua
神经聚合网络用于视频人脸识别
摘要

本文介绍了一种用于视频人脸识别的神经聚合网络(Neural Aggregation Network, NAN)。该网络以包含可变数量人脸图像的面部视频或面部图像集作为输入,生成一个紧凑且固定维度的特征表示用于识别。整个网络由两个模块组成。特征嵌入模块是一个深度卷积神经网络(Convolutional Neural Network, CNN),它将每张人脸图像映射到一个特征向量。聚合模块包含两个注意力块,这些注意力块自适应地聚合特征向量,形成一个位于它们所张成的凸包内的单一特征。由于采用了注意力机制,聚合过程对图像顺序具有不变性。我们的NAN在训练时使用标准分类或验证损失函数,无需任何额外的监督信号,我们发现它能够自动学习选择高质量的人脸图像,同时排斥低质量的图像,如模糊、遮挡和曝光不当的人脸图像。在IJB-A、YouTube Face和Celebrity-1000视频人脸识别基准上的实验表明,该方法始终优于简单的聚合方法,并达到了最先进的准确率。