
摘要
遮挡和姿态变化是自动面部表情识别(FER)面临的两个主要障碍,这些因素可以显著改变面部外观。尽管在过去几十年中,自动FER取得了实质性进展,但针对遮挡鲁棒性和姿态不变性的研究相对较少,尤其是在现实场景中。本文在三个方面对现实世界中的姿态和遮挡鲁棒性FER问题进行了探讨。首先,为了促进在真实环境中存在遮挡和不同姿态下的FER研究,我们构建了多个带有手动注释的野外面部表情数据集供社区使用。其次,我们提出了一种新的区域注意力网络(Region Attention Network, RAN),该网络能够自适应地捕捉对面部区域的重要性以应对遮挡和姿态变化的FER问题。RAN将骨干卷积神经网络生成的不同数量的区域特征聚合并嵌入到一个紧凑的固定长度表示中。最后,受到面部表情主要由面部动作单元定义这一事实的启发,我们提出了一种区域偏置损失函数,以鼓励对最重要区域分配较高的注意力权重。我们在自行构建的测试数据集以及四个流行的数据集(FERPlus、AffectNet、RAF-DB 和 SFEW)上验证了我们的RAN和区域偏置损失函数。大量实验表明,我们的RAN和区域偏置损失函数显著提高了存在遮挡和不同姿态情况下的FER性能。此外,我们的方法在FERPlus、AffectNet、RAF-DB 和 SFEW 数据集上也达到了最先进的结果。代码和收集的测试数据将公开发布。