摘要
由于在人机交互等领域具有广泛应用,自动面部表情识别(Facial Expression Recognition, FER)近年来受到广泛关注。在提升FER性能的诸多方法中,本文聚焦于引入注意力机制的深度网络架构。为此,我们提出一种新颖的“掩码(Masking)”思想,以增强卷积神经网络(CNN)在面部表情识别任务中的表现。该方法利用分割网络对特征图进行精细化处理,使网络能够聚焦于与决策相关的关键信息,从而提升识别准确性。在实验中,我们将广泛使用的深度残差网络(Deep Residual Network)与类似Unet的架构相结合,构建出一种新型的残差掩码网络(Residual Masking Network)。所提出的方法在著名的FER2013数据集以及自建的VEMO私有数据集上均取得了当前最优(State-of-the-Art, SOTA)的识别准确率。