6 个月前

Cam-Van Thi Nguyen Anh-Tuan Mai The-Son Le Hai-Dang Kieu Duc-Trong Le

摘要

情感识别是理解人类对话中至关重要的任务，随着多模态数据（如语言、语音和面部表情）概念的引入，该任务变得更加复杂。作为典型解决方案，现有方法通常利用全局上下文与局部上下文信息来预测对话中每一句话（即话语）的情感标签。具体而言，全局表示可通过在对话层面建模跨模态交互来获取；而局部表示则通常基于说话人的时间序列信息或情感变化趋势进行推断，但这类方法往往忽略了话语层面的关键因素。此外，大多数现有方法将多模态特征以融合形式统一输入，未能充分挖掘各模态特有的表示能力。针对上述问题，我们提出了关系时序图神经网络与辅助跨模态交互框架（CORECT），这是一种新颖的神经网络架构，能够以模态特异性的方式，有效捕捉对话层面的跨模态交互关系以及话语层面的时间依赖性，从而提升对话理解性能。大量实验结果表明，CORECT在多模态情感识别（Multimodal Emotion Recognition, ERC）任务上取得了当前最先进的性能，在IEMOCAP与CMU-MOSEI两个公开数据集上均展现出显著优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Cam-Van Thi Nguyen Anh-Tuan Mai The-Son Le Hai-Dang Kieu Duc-Trong Le

摘要

情感识别是理解人类对话中至关重要的任务，随着多模态数据（如语言、语音和面部表情）概念的引入，该任务变得更加复杂。作为典型解决方案，现有方法通常利用全局上下文与局部上下文信息来预测对话中每一句话（即话语）的情感标签。具体而言，全局表示可通过在对话层面建模跨模态交互来获取；而局部表示则通常基于说话人的时间序列信息或情感变化趋势进行推断，但这类方法往往忽略了话语层面的关键因素。此外，大多数现有方法将多模态特征以融合形式统一输入，未能充分挖掘各模态特有的表示能力。针对上述问题，我们提出了关系时序图神经网络与辅助跨模态交互框架（CORECT），这是一种新颖的神经网络架构，能够以模态特异性的方式，有效捕捉对话层面的跨模态交互关系以及话语层面的时间依赖性，从而提升对话理解性能。大量实验结果表明，CORECT在多模态情感识别（Multimodal Emotion Recognition, ERC）任务上取得了当前最先进的性能，在IEMOCAP与CMU-MOSEI两个公开数据集上均展现出显著优势。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供