17 天前
带有注意力池化的视觉Transformer在鲁棒面部表情识别中的应用
Fanglei Xue, Qiangchang Wang, Zichang Tan, Zhongsong Ma, Guodong Guo

摘要
在真实场景下进行面部表情识别(Facial Expression Recognition, FER)是一项极具挑战性的任务。近年来,尽管已有部分视觉Transformer(Vision Transformer, ViT)被应用于FER,但大多数方法在性能上仍逊于卷积神经网络(Convolutional Neural Networks, CNN)。这一现象的主要原因在于,新提出的模块由于缺乏归纳偏置(inductive bias),在从零开始训练时难以有效收敛,且容易聚焦于被遮挡或噪声干扰严重的区域。目前代表性基于Transformer的FER方法TransFER通过多分支注意力丢弃机制缓解了该问题,但带来了过高的计算开销。与此相反,本文提出两种新颖的注意力池化(Attentive Pooling, AP)模块,用于直接对噪声特征进行池化处理。这两个模块分别为:注意力块池化(Attentive Patch Pooling, APP)和注意力标记池化(Attentive Token Pooling, ATP)。它们旨在引导模型聚焦于最具判别性的特征,同时抑制无关或冗余特征的影响。其中,APP模块用于从CNN提取的特征中选择最具信息量的图像块(patches),而ATP模块则在ViT架构中剔除不重要的token。由于这两个模块结构简单、无需可学习参数,因此在不引入额外训练负担的前提下,能够直观地降低计算成本,同时仅通过聚焦于最具判别性的特征,显著提升模型性能。定性分析结果充分验证了所提注意力池化机制的设计动机与有效性。此外,在六个真实场景下的FER数据集上的定量实验表明,本文方法在性能上优于当前主流的先进方法,展现了卓越的泛化能力与实用性。