2 个月前

EmoCLIP:一种用于零样本视频面部表情识别的视觉-语言方法

Niki Maria Foteinopoulou; Ioannis Patras
EmoCLIP:一种用于零样本视频面部表情识别的视觉-语言方法
摘要

面部表情识别(FER)是情感计算中的一个重要任务,但其传统上对七种基本情绪的关注限制了其在复杂且不断扩展的情绪谱中的应用。为了解决动态自然场景下FER中出现的新情绪和未见过的情绪问题,我们提出了一种新颖的视觉-语言模型,该模型利用样本级别的文本描述(即上下文、表情或情绪线索的字幕)作为自然语言监督,旨在增强丰富潜在表示的学习,以实现零样本分类。为了测试这一方法,我们在四个流行的动态FER数据集上评估了使用样本级别描述训练的模型的零样本分类性能。研究结果表明,与基线方法相比,这种方法显著提高了分类效果。具体而言,在零样本视频FER方面,我们在多个数据集上的加权平均召回率比CLIP高出超过10%,非加权平均召回率高出5%。此外,我们还评估了使用样本级别描述训练的网络所获得的表示在下游心理健康症状估计任务中的表现,达到了与最先进方法相当或更优的性能,并与人类专家有很强的一致性。例如,在精神分裂症症状严重程度估计中,我们实现了高达0.85的皮尔逊相关系数,这与人类专家的一致性相当。代码已公开发布于:https://github.com/NickyFot/EmoCLIP。

EmoCLIP:一种用于零样本视频面部表情识别的视觉-语言方法 | 最新论文 | HyperAI超神经