3 个月前

对抗性多模态域迁移用于视频级情感分析

{Wang Yanan; Wu Jianming; Furumai Kazuaki; Wada Shinya; Kurihara Satoshi}

摘要

视频级情感分析是一项具有挑战性的任务，要求系统能够获取具有判别性的多模态表示，以捕捉不同模态间的情感差异。然而，由于各模态数据分布差异较大，且统一的多模态标签并不总是适用于单模态学习，导致单模态表示之间的距离差异增大，从而阻碍了系统学习具有判别性的多模态表示。为获得更具判别性的多模态表示以进一步提升系统性能，本文提出一种基于变分自编码器的对抗性多模态域迁移方法（VAE-AMDT），并将其与多注意力模块联合训练，以减小单模态表示之间的距离差异。首先，通过变分自编码器（VAE）使视觉、语言和语音表示服从共同的分布；随后引入对抗性训练，将所有单模态表示迁移至一个共享的嵌入空间。在此共享嵌入空间中，我们利用多注意力模块融合多模态信息，该模块包含自注意力、交叉注意力和三重注意力机制，以突出时间维度和模态维度上的关键情感表征。实验结果表明，所提方法在MOSI数据集上将当前最优方法的F1分数提升3.6%，在MOSEI数据集上提升2.9%，充分验证了其在获取判别性多模态表示以实现视频级情感分析方面的有效性。