17 天前

TEASEL:一种基于Transformer的语音前缀语言模型

Mehdi Arjmand, Mohammad Javad Dousti, Hadi Moradi
TEASEL:一种基于Transformer的语音前缀语言模型
摘要

多模态语言分析是自然语言处理(NLP)领域中一个快速发展的研究方向,旨在同时建模说话者的语言内容、声学特征以及面部表情。在该领域中,词汇特征通常优于其他模态,原因在于其基于Transformer架构在大规模语料库上进行预训练,具备较强的表征能力。然而,由于多模态语言学习中数据资源有限,通常难以针对任一模态训练全新的自监督学习(SSL)Transformer模型,这成为实际应用中的主要瓶颈。为此,本文提出了一种基于Transformer的语音前缀语言模型——TEASEL(Transformer-based Speech-Prefixed Language Model),以在不训练完整Transformer模型的前提下应对上述挑战。与传统语言模型仅处理文本模态不同,TEASEL将语音模态作为动态前缀引入模型结构,同时融合文本信息。该方法利用预训练的通用语言模型作为跨模态Transformer架构,实现对多模态信息的有效整合。我们在CMU-MOSI数据集定义的多模态情感分析任务上对TEASEL进行了评估。大量实验结果表明,该模型在F1分数上相比单模态基线语言模型提升了4%,并优于当前多模态最先进(SoTA)模型1%。此外,所提出的TEASEL模型体积比现有最先进模型小72%,显著降低了计算资源需求,具备更高的部署效率与实用性。

TEASEL:一种基于Transformer的语音前缀语言模型 | 最新论文 | HyperAI超神经