
摘要
本文研究了非常深的神经网络在现有2D和3D面部对齐数据集上接近饱和性能的程度。为此,我们做出了以下五项贡献:(a) 首次构建了一个非常强大的基线模型,通过结合最先进的地标定位架构和最先进的残差块(residual block),在大规模且经过合成扩展的2D面部地标数据集上进行训练,并最终在所有其他2D面部地标数据集上进行评估。(b) 我们创建了一个由2D地标引导的网络,该网络将2D地标注释转换为3D,并统一了所有现有的数据集,从而生成了LS3D-W,这是迄今为止最大且最具挑战性的3D面部地标数据集,包含约23万张图像。(c) 随后,我们在新引入的LS3D-W数据集上训练了一个用于3D面部对齐的神经网络并对其进行了评估。(d) 我们进一步探讨了影响面部对齐性能的所有“传统”因素,如大姿态、初始化和分辨率,并引入了一个“新的”因素,即网络规模(size of the network)。(e) 我们展示了2D和3D面部对齐网络均达到了显著的精度水平,这可能已经接近所使用数据集的饱和点。训练和测试代码以及数据集可从https://www.adrianbulat.com/face-alignment/ 下载。