
摘要
衰老给人脸识别带来了重大挑战,因为皮肤纹理和色调随时间变化会改变面部特征,导致在不同年份拍摄的同一人图像难以匹配,尤其在长期身份识别场景中尤为突出。Transformer网络具备捕捉衰老效应所引发的序列化空间关系的能力。本文提出一种基于Transformer网络的损失评估方法,将其作为附加损失项引入人脸识别领域。传统的度量损失函数通常以主干CNN网络的最终嵌入向量作为输入。本文采用一种融合式方法——Transformer度量损失(transformer-metric loss),将Transformer损失与度量损失相结合。本研究旨在分析Transformer在CNN输出特征被排列为序列向量时的行为表现。这些序列化向量具有克服由衰老引起的纹理变化或局部结构退化(如皱纹、皮肤松弛)的潜力。Transformer编码器接收来自网络最后一层卷积输出的上下文向量作为输入,所学习到的特征更具年龄不变性,从而在一定程度上弥补了传统度量损失嵌入的判别能力。通过该方法,我们结合多种基础度量损失函数,评估了联合损失函数的效果。实验结果表明,这种配置使网络在LFW以及具有年龄变化特性的数据集(CA-LFW与AgeDB)上均取得了当前最优(SoTA)性能。本研究拓展了Transformer在机器视觉领域的应用边界,为将Transformer作为损失函数进行探索开辟了新的可能性。