摘要
在现代人脸识别技术中,传统的处理流程通常包含四个阶段:检测 → 对齐 → 表示 → 分类。本文通过引入显式的三维人脸建模,重新审视了对齐与表示两个关键步骤,采用分段仿射变换(piecewise affine transformation)实现更精确的对齐,并基于一个九层深度神经网络提取人脸特征表示。该深度网络包含超过1.2亿个参数,采用多个局部连接层(locally connected layers)且不共享权重,而非传统的卷积层结构。因此,我们利用迄今为止规模最大的人脸数据集对该网络进行了训练——该数据集包含超过四百万张人脸图像,涵盖4000多个身份标签。所学习到的特征表示结合了基于模型的高精度对齐与大规模人脸数据库的优势,在非受限环境下的泛化能力表现出色,即使搭配简单的分类器也能取得优异效果。在Labeled Faces in the Wild(LFW)数据集上,本方法达到了97.35%的识别准确率,相较于当前最优方法的错误率降低了超过27%,已非常接近人类水平的识别性能。