2 个月前

MultiMAE-DER:多模态掩码自动编码器用于动态情感识别

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai
MultiMAE-DER:多模态掩码自动编码器用于动态情感识别
摘要

本文提出了一种用于动态情感识别的多模态数据处理新方法,称为多模态掩码自动编码器动态情感识别(MultiMAE-DER)。MultiMAE-DER 利用了视觉和音频模态在时空序列中紧密相关的表示信息。通过利用预训练的掩码自动编码器模型,MultiMAE-DER 仅需简单直接的微调即可实现。为了进一步提升 MultiMAE-DER 的性能,研究者优化了六种多模态输入序列的融合策略。这些策略解决了跨域数据在空间、时间和时空序列中的动态特征相关性问题。与现有的最先进的多模态监督学习模型相比,MultiMAE-DER 在 RAVDESS 数据集上将加权平均召回率(WAR)提高了 4.41%,在 CREMAD 数据集上提高了 2.06%。此外,与最先进的多模态自监督学习模型相比,MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。