
摘要
多人群对话中的多模态情感识别(Multimodal Emotion Recognition in Multiparty Conversations, MERMC)近年来受到广泛关注。由于多人群对话场景中视觉信息的复杂性,以往大多数MERMC研究主要聚焦于文本和音频模态,而忽略了视觉信息的重要性。近年来,一些研究尝试通过提取人脸序列作为视觉特征,揭示了视觉信息在MERMC任务中的关键作用。然而,现有方法在处理某一话语时,所提取的人脸序列可能包含多个说话者的人脸,这不可避免地引入噪声,影响真实说话者情感预测的准确性。为解决这一问题,本文提出一种两阶段框架——面向面部表情的多模态多任务学习方法(Facial expression-aware Multimodal Multi-Task learning, FacialMMT)。首先,设计了一种流水线式方法,用于精确提取每个话语中真实说话者的人脸序列,该方法包含多模态人脸识别、无监督人脸聚类和人脸匹配三个步骤。在获得高质量的人脸序列后,进一步提出一种多模态面部表情感知的情感识别模型,该模型利用帧级面部表情分布信息,结合多任务学习机制,有效提升话语级情感识别的性能。在基准数据集MELD上的实验结果表明,所提出的FacialMMT框架在情感识别任务中具有显著有效性。相关源代码已公开发布于:https://github.com/NUSTM/FacialMMT。