
摘要
我们提出了一种新型的面部表情识别网络,称为“分散注意力网络”(Distract Your Attention Network, DAN)。本方法基于两个关键观察:其一,多个类别在本质上具有相似的面部外观特征,其差异往往较为细微;其二,面部表情通过多个面部区域同时表现,因此识别任务需要一种整体性方法,以编码局部特征之间的高阶交互关系。为应对上述挑战,我们设计了DAN网络,包含三个核心组件:特征聚类网络(Feature Clustering Network, FCN)、多头交叉注意力网络(Multi-head cross Attention Network, MAN)以及注意力融合网络(Attention Fusion Network, AFN)。FCN通过采用大间隔学习目标,增强特征的判别能力,从而提取更具鲁棒性的特征表示。MAN引入多个注意力头,可同时关注多个面部区域,并在这些区域上构建注意力图。进一步地,AFN在融合注意力图之前,主动将注意力分散至多个位置,以增强模型对多区域信息的整合能力,最终生成一个全面且富有表现力的融合注意力图。在三个公开数据集(包括AffectNet、RAF-DB和SFEW 2.0)上的大量实验表明,所提方法在面部表情识别任务中 consistently 达到了当前最优(state-of-the-art)性能。代码将开源,发布于 https://github.com/yaoing/DAN。