
摘要
本研究的目标是基于集合的面部识别,即判断两组面部图像是否属于同一个人。传统方法通常通过计算集合内各个面部图像描述符的平均值来生成集合级别的特征描述符。在本文中,我们设计了一种神经网络架构,该架构能够根据“视觉”质量(分辨率、光照)和“内容”质量(对区分性分类的相对重要性)进行聚合学习。为此,我们提出了一种多列网络(Multicolumn Network,简称MN),该网络以一组图像(集合中的图像数量可以变化)作为输入,并学习为整个集合计算一个固定大小的特征描述符。为了鼓励高质量表示,每个单独的输入图像首先由其“视觉”质量加权,这一质量由自评估模块确定;随后根据与其他图像相比的“内容”质量进行动态再校准。这两种质量在训练过程中隐式地被学习用于集合级别的分类。与使用相同数据集(VGGFace2)训练的先前最先进架构相比,我们的多列网络在IARPA IJB面部识别基准测试中表现出2-6%的提升,并且在这类基准测试的所有方法中均超过了现有技术水平。