2 个月前
基于模态感知提示的多模态意图识别中的词级对比学习
Qianrui Zhou; Hua Xu; Hao Li; Hanlei Zhang; Xiaohan Zhang; Yifan Wang; Kai Gao

摘要
多模态意图识别旨在利用表情、身体动作和语音语调等多种模态来理解用户的意图,这是在现实世界多模态场景中理解人类语言和行为的关键任务。然而,现有的大多数方法忽略了不同模态之间的潜在相关性,并且在从非言语模态中有效学习语义特征方面存在局限性。本文提出了一种基于模态感知提示的令牌级对比学习方法(TCL-MAP),以应对上述挑战。为了为文本模态建立最优的多模态语义环境,我们开发了一个模态感知提示模块(MAP),该模块通过基于相似性的模态对齐和跨模态注意力机制,有效地对齐并融合了来自文本、视频和音频模态的特征。基于模态感知提示和真实标签,所提出的令牌级对比学习框架(TCL)构建了增强样本,并在标签令牌上应用了NT-Xent损失函数。具体而言,TCL利用从意图标签中获得的最佳文本语义洞见来指导其他模态的学习过程。大量实验表明,我们的方法相比现有最先进方法取得了显著改进。此外,消融分析证明了模态感知提示相对于手工设计提示的优势,这对多模态提示学习具有重要意义。代码已发布在https://github.com/thuiar/TCL-MAP。