17 天前
无需真实视觉流的视觉语音增强
Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar

摘要
在本工作中,我们重新思考了在非受限真实环境下的语音增强任务。当前最先进的方法仅依赖音频流,在面对各种真实场景噪声时性能受限。近期一些利用唇部运动作为附加线索的方法,在生成语音质量上优于“仅音频”方法。然而,这些方法在视觉流不可靠或完全缺失的应用场景中无法使用。为此,我们提出了一种新的语音增强范式,借助语音驱动唇部合成领域的最新进展。我们采用一个此类模型作为教师网络,训练一个鲁棒的学生网络,使其生成准确的唇部运动,以“掩蔽”噪声,从而起到“视觉噪声滤波器”的作用。我们所提出的伪唇部方法所增强语音的可理解性,与使用真实唇部的情况相比差异小于3%,表明即使在缺乏真实视频流的情况下,也能有效利用唇部运动的优势。我们通过定量指标与人工评估对模型进行了严格评测。此外,消融实验以及我们网站上提供的演示视频,通过定性对比和结果展示,清晰地验证了该方法的有效性。我们已在网站上提供演示视频,直观呈现所提方法的效果:\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}。同时,代码与模型也已开源,以支持后续研究:\url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}。