
摘要
近期在面部关键点检测领域的进展通过从丰富的面部形状和姿态变化中学习判别特征而取得了成功。除了面部本身的差异外,图像风格的内在差异(例如灰度图像与彩色图像、亮图与暗图、鲜艳图与平淡图等)一直被忽视。随着越来越多的网络图像从不同来源收集用于训练神经网络,这一问题变得不可避免。在这项工作中,我们提出了一种风格聚合方法来应对面部关键点检测中图像风格的较大内在差异。我们的方法通过生成对抗模块将原始面部图像转换为风格聚合图像。所提出的方案利用风格聚合图像来保持对环境变化更具鲁棒性的面部图像。随后,原始面部图像与风格聚合图像共同作用,以互补的方式训练一个关键点检测器。因此,对于每张面部,我们的方法需要两种类型的输入图像:一张保持原有风格,另一张则为聚合后的风格。实验表明,较大的图像风格差异会降低面部关键点检测器的性能。此外,我们通过与一种变体方法进行比较,展示了我们方法在应对较大图像风格差异时的鲁棒性,在该变体方法中去除了生成对抗模块,并未使用任何风格聚合图像。我们的方法在基准数据集AFLW和300-W上的表现优于现有先进算法。代码已公开发布在GitHub上:https://github.com/D-X-Y/SAN