17 天前

批量Transformer:在批量中寻找注意力

Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han
批量Transformer:在批量中寻找注意力
摘要

面部表情识别(Facial Expression Recognition, FER)在计算机视觉领域受到广泛关注,尤其在人机交互等“自然场景”(in-the-wild)环境下。然而,FER图像常包含多种不确定性因素,如遮挡、低分辨率、姿态变化、光照变化以及主观判断偏差(部分表情标注与目标标签不一致),这些因素导致单张图像所含有效信息有限且可信度较低,从而显著影响FER任务的性能表现。为解决这一问题,本文提出一种批处理变换器(Batch Transformer, BT),其核心为所提出的类别批注意力模块(Class Batch Attention, CBA),该模块通过融合一个批次中多张图像所反映的特征信息,而非依赖单张图像的局部特征,实现对噪声数据的抗过拟合能力,并提取更具可信度的表达特征。此外,本文还引入多层级注意力机制(Multi-level Attention, MLA),以捕捉不同层级特征之间的相关性,防止模型过度拟合特定层级的局部特征。本文进一步构建了一种批处理变换器网络(Batch Transformer Network, BTN),整合上述创新模块。在多个主流FER基准数据集上的实验结果表明,所提出的BTN在各项指标上均持续优于当前最先进的方法,充分验证了其在面部表情识别任务中的有效性与潜力。代表性实验结果进一步展示了BTN在复杂真实场景下识别准确性和鲁棒性的显著提升。

批量Transformer:在批量中寻找注意力 | 最新论文 | HyperAI超神经