HyperAI

摘要

在本工作中，我们重新思考了在非受限真实环境下的语音增强任务。当前最先进的方法仅依赖音频流，在面对各种真实场景噪声时性能受限。近期一些利用唇部运动作为附加线索的方法，在生成语音质量上优于“仅音频”方法。然而，这些方法在视觉流不可靠或完全缺失的应用场景中无法使用。为此，我们提出了一种新的语音增强范式，借助语音驱动唇部合成领域的最新进展。我们采用一个此类模型作为教师网络，训练一个鲁棒的学生网络，使其生成准确的唇部运动，以“掩蔽”噪声，从而起到“视觉噪声滤波器”的作用。我们所提出的伪唇部方法所增强语音的可理解性，与使用真实唇部的情况相比差异小于3%，表明即使在缺乏真实视频流的情况下，也能有效利用唇部运动的优势。我们通过定量指标与人工评估对模型进行了严格评测。此外，消融实验以及我们网站上提供的演示视频，通过定性对比和结果展示，清晰地验证了该方法的有效性。我们已在网站上提供演示视频，直观呈现所提方法的效果：\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}。同时，代码与模型也已开源，以支持后续研究：\url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}。

摘要

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无需真实视觉流的视觉语音增强

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无需真实视觉流的视觉语音增强

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无需真实视觉流的视觉语音增强

Sindhu B Hegde K R Prajwal Rudrabha Mukhopadhyay Vinay Namboodiri C.V. Jawahar

摘要

用 AI 构建 AI

HyperAI Newsletters