2 个月前

视觉语音与语言的交汇:VSP-LLM框架用于高效且上下文感知的视觉语音处理

Yeo, Jeong Hun ; Han, Seunghee ; Kim, Minsu ; Ro, Yong Man
视觉语音与语言的交汇:VSP-LLM框架用于高效且上下文感知的视觉语音处理
摘要

在视觉语音处理中,上下文建模能力是最为重要的需求之一,这是由于唇部运动的模糊性质所致。例如,同形异音词(homophenes),即具有相同唇部运动但发音不同的词语,可以通过考虑上下文来区分。本文提出了一种新颖的框架,即结合大语言模型的视觉语音处理(VSP-LLM),旨在通过引入大语言模型的强大功能来最大化上下文建模能力。具体而言,VSP-LLM 被设计用于执行视觉语音识别和翻译的多任务处理,其中给定的指令控制任务类型。通过使用自监督视觉语音模型,输入视频被映射到大语言模型的输入潜在空间。鉴于输入帧中存在冗余信息这一事实,我们提出了一种新的去重方法,该方法通过使用视觉语音单元来减少嵌入的视觉特征。通过所提出的去重方法和低秩适应(Low Rank Adaptation, LoRA),VSP-LLM 可以以计算高效的方式进行训练。在翻译数据集 MuAViC 基准测试中,我们展示了仅用 30 小时标注数据训练的 VSP-LLM 模型相比近期使用 433 小时数据训练的模型能够更有效地翻译唇部运动。