
摘要
无约束人脸对齐方法必须满足两个要求:一是不依赖于精确的初始定位或人脸检测结果;二是应对各种面部姿态时均能保持一致的性能表现。据我们所知,目前尚无方法能够以令人满意的方式同时满足上述两个条件。为此,本文提出了一种名为卷积局部证据聚合(Convolutional Aggregation of Local Evidence, CALE)的卷积神经网络(CNN)架构,专门用于解决上述两个挑战。具体而言,为消除对精确人脸检测的依赖,本系统首先执行面部部件检测,生成每个面部关键点位置的置信度图(即局部证据)。随后,系统通过联合回归机制,将这些置信度图与早期CNN特征进行聚合,以进一步优化关键点的位置。此外,CNN回归不仅承担了图模型的功能,更是本系统的关键特性之一,它引导网络利用上下文信息来预测被遮挡关键点的位置,这在极端大姿态情况下尤为关键。整个系统采用端到端的方式进行训练,并引入中间监督机制以提升性能。在目前最具挑战性的人脸对齐测试集AFLW-PIFA上,相较于其他近期发表的大姿态人脸对齐方法,本方法在定位精度上实现了超过50%的显著提升。此外,本方法在处理动物面部时也表现出色,能够有效应对形状与外观发生的剧烈变化,展现出良好的泛化能力。