8 个月前

摘要

从无声唇部动作中识别语音，即唇读，是一项具有挑战性的任务，原因在于：1）唇部动作本身所包含的信息不足以完全表示语音；2）存在同音异形词（homophenes），这些词语虽然发音不同但唇部动作相似。在本文中，我们通过提出一种多头视听记忆模型（Multi-head Visual-audio Memory, MVM）来缓解上述两个挑战。首先，MVM 使用音视频数据集进行训练，并通过建模配对的音视频表示之间的相互关系来记住音频表示。在推理阶段，仅凭视觉输入即可通过检查已学习的相互关系从记忆中提取保存的音频表示。因此，唇读模型可以通过提取的音频表示来补充不足的视觉信息。其次，MVM 包含多个用于保存视觉特征的多头键记忆和一个用于保存音频知识的价值记忆，这一设计旨在区分同音异形词。借助多头键记忆，MVM 可以从记忆中提取可能的候选音频特征，从而使唇读模型能够考虑输入唇部动作可以代表哪些发音的可能性。这也可以视为显式实现视素到音素的一对多映射（viseme-to-phoneme）。此外，MVM 在多个时间尺度上被应用，以便在检索记忆时考虑上下文并区分同音异形词。大量的实验结果验证了所提方法在唇读和区分同音异形词方面的有效性。

源 PDF