17 天前

从静态到动态：面向视频中面部表情识别的地标感知图像模型自适应方法

Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong

摘要

在真实场景下的动态面部表情识别（Dynamic Facial Expression Recognition, DFER）仍受限于数据瓶颈，例如姿态、遮挡和光照条件的多样性不足，以及面部表情本身固有的模糊性。相比之下，静态面部表情识别（Static Facial Expression Recognition, SFER）目前展现出更高的性能，并能受益于更为丰富且高质量的训练数据。此外，DFER中的外观特征与动态依赖关系尚未得到充分探索。为应对上述挑战，本文提出一种新颖的“静态到动态”模型（Static-to-Dynamic model, S2D），该模型充分利用现有的SFER知识，并隐式地挖掘从提取的面部关键点感知特征中蕴含的动态信息，从而显著提升DFER的性能。具体而言，我们首先构建并训练了一个用于SFER的图像模型，该模型仅包含标准的视觉Transformer（Vision Transformer, ViT）和多视角互补提示器（Multi-View Complementary Prompters, MCPs）。随后，通过在该图像模型中插入时序建模适配器（Temporal-Modeling Adapters, TMAs），构建出用于DFER的视频模型（即S2D）。MCPs通过使用现成的面部关键点检测器推断出的、具有关键点感知特性的特征，增强面部表情的表征能力；而TMAs则用于捕捉并建模面部表情随时间变化的动态关系，从而有效将预训练的图像模型扩展至视频任务。值得注意的是，MCPs与TMAs仅向原始图像模型引入了少量可训练参数（增加少于10%），显著保持了模型的高效性。此外，我们提出一种基于情感锚点（Emotion-Anchors，即每类情绪的参考样本）的新型自蒸馏损失函数，以缓解模糊情绪标签带来的负面影响，进一步提升S2D模型的性能。在多个主流SFER与DFER数据集上的实验结果表明，本方法达到了当前最先进的识别水平。