8 个月前

多模态表征

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai

摘要

本文提出了一种用于动态情感识别的多模态数据处理新方法，称为多模态掩码自动编码器动态情感识别（MultiMAE-DER）。MultiMAE-DER 利用了视觉和音频模态在时空序列中紧密相关的表示信息。通过利用预训练的掩码自动编码器模型，MultiMAE-DER 仅需简单直接的微调即可实现。为了进一步提升 MultiMAE-DER 的性能，研究者优化了六种多模态输入序列的融合策略。这些策略解决了跨域数据在空间、时间和时空序列中的动态特征相关性问题。与现有的最先进的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上将加权平均召回率（WAR）提高了 4.41%，在 CREMAD 数据集上提高了 2.06%。此外，与最先进的多模态自监督学习模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Peihao Xiang; Chaohao Lin; Kaida Wu; Ou Bai

摘要

本文提出了一种用于动态情感识别的多模态数据处理新方法，称为多模态掩码自动编码器动态情感识别（MultiMAE-DER）。MultiMAE-DER 利用了视觉和音频模态在时空序列中紧密相关的表示信息。通过利用预训练的掩码自动编码器模型，MultiMAE-DER 仅需简单直接的微调即可实现。为了进一步提升 MultiMAE-DER 的性能，研究者优化了六种多模态输入序列的融合策略。这些策略解决了跨域数据在空间、时间和时空序列中的动态特征相关性问题。与现有的最先进的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上将加权平均召回率（WAR）提高了 4.41%，在 CREMAD 数据集上提高了 2.06%。此外，与最先进的多模态自监督学习模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供