摘要
本文提出了一种高效且鲁棒的面部表情识别(Facial Expression Recognition, FER)网络——EfficientFace,该网络参数量显著减少,同时在真实场景下的FER任务中表现出更强的鲁棒性。首先,为提升轻量化网络的鲁棒性,本文设计了局部特征提取器与通道-空间调制模块,其中引入了深度可分离卷积(depthwise convolution),使网络能够同时捕捉局部与全局显著的面部特征。其次,考虑到大多数情绪实际上是基本情绪的组合、混合或复合形式,本文提出一种简单而高效的标签分布学习(Label Distribution Learning, LDL)方法,作为新型训练策略。在包含真实遮挡与姿态变化的多个数据集上的实验结果表明,所提出的EfficientFace在遮挡和姿态变化条件下均具有良好的鲁棒性。此外,该方法在RAF-DB、CAER-S和AffectNet-7数据集上分别取得了88.36%、85.87%和63.70%的准确率,达到当前最优水平;在AffectNet-8数据集上也取得了59.89%的准确率,表现与现有先进方法相当。