19 天前

基于辅助跨模态交互的关联时序图神经网络的对话理解

Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le
基于辅助跨模态交互的关联时序图神经网络的对话理解
摘要

情感识别是理解人类对话中至关重要的任务,随着多模态数据(如语言、语音和面部表情)概念的引入,该任务变得更加复杂。作为典型解决方案,现有方法通常利用全局上下文与局部上下文信息来预测对话中每一句话(即话语)的情感标签。具体而言,全局表示可通过在对话层面建模跨模态交互来获取;而局部表示则通常基于说话人的时间序列信息或情感变化趋势进行推断,但这类方法往往忽略了话语层面的关键因素。此外,大多数现有方法将多模态特征以融合形式统一输入,未能充分挖掘各模态特有的表示能力。针对上述问题,我们提出了关系时序图神经网络与辅助跨模态交互框架(CORECT),这是一种新颖的神经网络架构,能够以模态特异性的方式,有效捕捉对话层面的跨模态交互关系以及话语层面的时间依赖性,从而提升对话理解性能。大量实验结果表明,CORECT在多模态情感识别(Multimodal Emotion Recognition, ERC)任务上取得了当前最先进的性能,在IEMOCAP与CMU-MOSEI两个公开数据集上均展现出显著优势。

基于辅助跨模态交互的关联时序图神经网络的对话理解 | 论文 | HyperAI超神经