HyperAIHyperAI

Command Palette

Search for a command to run...

MultiMAE-DER:多模态掩码自动编码器用于动态情感识别

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai

摘要

本文提出了一种用于动态情感识别的多模态数据处理新方法,称为多模态掩码自动编码器动态情感识别(MultiMAE-DER)。MultiMAE-DER 利用了视觉和音频模态在时空序列中紧密相关的表示信息。通过利用预训练的掩码自动编码器模型,MultiMAE-DER 仅需简单直接的微调即可实现。为了进一步提升 MultiMAE-DER 的性能,研究者优化了六种多模态输入序列的融合策略。这些策略解决了跨域数据在空间、时间和时空序列中的动态特征相关性问题。与现有的最先进的多模态监督学习模型相比,MultiMAE-DER 在 RAVDESS 数据集上将加权平均召回率(WAR)提高了 4.41%,在 CREMAD 数据集上提高了 2.06%。此外,与最先进的多模态自监督学习模型相比,MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供