18 天前

基于多模态知识蒸馏的对话多标签情感分析

{Junsong Yuan, Sreyasee Das Bhattacharjee, Naresh Kumar Devulapally, Sidharth Anand}
基于多模态知识蒸馏的对话多标签情感分析
摘要

在人机交互相关应用中,对对话中说话者情绪的准确评估至关重要。然而,多种情绪状态(如“愤怒”与“挫败感”)可能同时出现,或彼此相互影响,且其动态演变过程会因说话者内在因素(如个性化社会文化教育背景及人口统计学特征)和外部语境的差异而表现出显著变化。此前的研究多聚焦于识别某一时刻说话者最显著的情绪,这种单一主导情绪的评估方式在处理复杂多标签情绪时容易导致误判,尤其在测试阶段面对难以区分的情绪组合时尤为明显。本文提出一种基于高效多模态Transformer网络的自监督多标签同伴协同蒸馏学习方法(Self-supervised Multi-Label Peer Collaborative Distillation, SeMuL-PCD)。该方法通过多个模态特定的同伴网络(如文本、音频、视觉)之间的互补反馈,将其知识蒸馏至一个统一的模态融合网络中,从而实现对多种情绪的并行估计。所提出的多模态蒸馏损失函数通过最小化融合网络与各同伴网络之间的Kullback-Leibler散度,对融合网络进行校准。此外,每个同伴网络均采用自监督对比学习目标进行条件化训练,以增强模型在不同社会人口学背景说话者之间的泛化能力。通过引入同伴协同学习机制,使各模态网络能够独立学习其特有的判别性特征模式,SeMuL-PCD在多种对话场景下均表现出优异性能。实验结果表明,该模型在多个大规模公开数据集(如MOSEI、EmoReact和ElderReact)上均显著超越现有最先进模型,尤其在跨数据集评估设置中,加权F1分数平均提升约17%。同时,模型在年龄和人口学特征差异较大的群体中展现出出色的泛化能力,验证了其在真实复杂场景中的实用价值。