17 天前
基于压缩与激励机制的视觉Transformer在面部表情识别中的学习
Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier

摘要
近几十年来,随着多种面部表情数据库的公开,面部表情识别(Facial Expression Recognition, FER)任务受到了广泛关注。然而,现有数据库来源多样,给面部表情识别任务带来了诸多挑战。这些挑战通常通过卷积神经网络(Convolutional Neural Network, CNN)架构来应对。与CNN模型不同,近年来基于注意力机制的Transformer模型被提出用于解决视觉任务。然而,Transformer模型的一个主要问题在于其训练通常需要大量数据,而大多数FER数据库的数据量相较于其他视觉应用仍显不足。为此,本文提出一种将视觉Transformer与挤压-激励(Squeeze-and-Excitation, SE)模块相结合的联合学习方法,以提升FER任务的性能。所提出的方法在多个公开可用的FER数据库(包括CK+、JAFFE、RAF-DB和SFEW)上进行了评估。实验结果表明,该模型在CK+和SFEW数据集上优于当前最先进的方法,并在JAFFE和RAF-DB数据集上取得了具有竞争力的性能。