
摘要
面部动作单元(AU)检测因其能够将复杂的面部表情分解为单独的肌肉运动而受到了广泛关注。本文重新审视了AU检测中的两个基本因素:多样性和大规模数据以及主体身份正则化。受到近期基础模型进展的启发,我们强调了数据的重要性,并介绍了Face9M,这是一个包含来自多个公共来源的900万张面部图像的多样化数据集。在Face9M上预训练一个掩码自编码器(Masked Autoencoder)可以显著提升AU检测和面部表情任务的性能。更重要的是,我们指出身份对抗训练(Identity Adversarial Training, IAT)在AU任务中尚未得到充分探索。为了填补这一空白,我们首先展示了AU数据集中主体身份会导致模型的捷径学习,并产生次优的AU预测结果。其次,我们证明了强大的IAT正则化对于学习与身份无关的特征是必要的。最后,我们阐明了IAT的设计空间,并通过实验证明IAT能够规避基于身份的捷径学习,从而获得更好的解决方案。我们提出的方法——面部掩码自编码器(Facial Masked Autoencoder, FMAE)和IAT——简单、通用且有效。值得注意的是,所提出的FMAE-IAT方法在BP4D(67.1%)、BP4D+(66.8%)和DISFA(70.1%)数据库上取得了新的最佳F1分数,显著优于以往的工作。我们已将代码和模型发布在https://github.com/forever208/FMAE-IAT。