
摘要
大姿态变化仍然是现实世界中人脸检测面临的一个挑战。我们提出了一种新的级联卷积神经网络,命名为监督变换网络(Supervised Transformer Network),以应对这一挑战。该网络的第一阶段是一个多任务区域提议网络(Region Proposal Network, RPN),它同时预测候选面部区域及其相关的面部特征点。随后,通过将检测到的面部特征点映射到其规范位置来对候选区域进行变形,从而更好地规范化面部模式。第二阶段是一个RCNN,用于验证变形后的候选区域是否为有效的人脸。我们对整个级联网络进行了端到端的学习,包括优化面部特征点的规范位置。这种监督学习的变换过程自动选择了最佳尺度来区分人脸和非人脸模式。通过结合网络两个阶段的特征图,我们在多个公开基准测试中实现了最先进的检测精度。为了实现实时性能,我们仅在由提升级联人脸检测器生成的兴趣区域上运行级联网络。我们的检测器在单个CPU核心上处理VGA分辨率图像时可达到每秒30帧的速度。