18 天前

多标签化合物表达识别:C-EXPR 数据库与网络

{Dimitrios Kollias}
多标签化合物表达识别:C-EXPR 数据库与网络
摘要

在面部表情自动分析的研究中,主流工作主要聚焦于识别七种基本表情。然而,复合表情更加多样化,能够更准确地反映日常情感表达的复杂性与细微差别。由于现有的复合表情识别(CER)研究受限于数据库数量稀少、规模小、实验环境受控、数据分布不均衡且静态等缺陷,相关研究进展较为有限。本文提出一个面向真实场景(in-the-wild)的视听多模态数据库C-EXPR-DB,包含400段视频,共计20万帧,标注内容涵盖13类复合表情、情绪的效价-唤醒度描述、动作单元(Action Units, AUs)、语音信息、面部关键点及属性特征。同时,我们提出一种多任务学习(Multi-Task Learning, MTL)方法——C-EXPR-NET,用于联合实现复合表情识别(CER)与动作单元检测(AU-D)。其中,AU-D任务的引入旨在提升CER的性能。在AU-D任务中,我们融合了动作单元的语义描述信息与视觉特征;在CER任务中,采用多标签学习框架,并引入KL散度损失函数。此外,我们设计了一种分布匹配损失(distribution matching loss),用于耦合CER与AU-D任务,以协同提升两者性能,并有效缓解负迁移问题(即多任务模型性能劣于任一单任务模型的情况)。通过大量实验验证,C-EXPR-NET展现出卓越的性能,充分支持了理论假设。最后,实验结果表明,C-EXPR-NET能够在零样本(zero-shot)条件下有效迁移其学习知识,泛化至新的情感识别场景,展现出良好的适应能力。

多标签化合物表达识别:C-EXPR 数据库与网络 | 最新论文 | HyperAI超神经