17 天前

从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法

Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong
从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法
摘要

在真实场景下的动态面部表情识别(Dynamic Facial Expression Recognition, DFER)仍受限于数据瓶颈,例如姿态、遮挡和光照条件的多样性不足,以及面部表情本身固有的模糊性。相比之下,静态面部表情识别(Static Facial Expression Recognition, SFER)目前展现出更高的性能,并能受益于更为丰富且高质量的训练数据。此外,DFER中的外观特征与动态依赖关系尚未得到充分探索。为应对上述挑战,本文提出一种新颖的“静态到动态”模型(Static-to-Dynamic model, S2D),该模型充分利用现有的SFER知识,并隐式地挖掘从提取的面部关键点感知特征中蕴含的动态信息,从而显著提升DFER的性能。具体而言,我们首先构建并训练了一个用于SFER的图像模型,该模型仅包含标准的视觉Transformer(Vision Transformer, ViT)和多视角互补提示器(Multi-View Complementary Prompters, MCPs)。随后,通过在该图像模型中插入时序建模适配器(Temporal-Modeling Adapters, TMAs),构建出用于DFER的视频模型(即S2D)。MCPs通过使用现成的面部关键点检测器推断出的、具有关键点感知特性的特征,增强面部表情的表征能力;而TMAs则用于捕捉并建模面部表情随时间变化的动态关系,从而有效将预训练的图像模型扩展至视频任务。值得注意的是,MCPs与TMAs仅向原始图像模型引入了少量可训练参数(增加少于10%),显著保持了模型的高效性。此外,我们提出一种基于情感锚点(Emotion-Anchors,即每类情绪的参考样本)的新型自蒸馏损失函数,以缓解模糊情绪标签带来的负面影响,进一步提升S2D模型的性能。在多个主流SFER与DFER数据集上的实验结果表明,本方法达到了当前最先进的识别水平。

从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法 | 最新论文 | HyperAI超神经