8 个月前

摘要

先前关于利用视觉输入改善语音质量的研究通常分别探讨每种听觉失真类型（例如，分离、修复、视频转语音），并提出定制算法。本文旨在统一这些研究主题，探讨广义语音增强问题，其目标不是重建精确的参考干净信号，而是专注于改善语音的某些方面。具体而言，本文关注的是可懂度、质量和视频同步。我们将该问题视为音视频语音重合成，该过程包括两个步骤：伪音视频语音识别（P-AVSR）和伪文本到语音合成（P-TTS）。P-AVSR 和 P-TTS 通过从自监督语音模型中提取的离散单元连接起来。此外，我们利用自监督音视频语音模型来初始化 P-AVSR。所提出的模型被命名为 ReVISE。ReVISE 是首个高质量的野外视频转语音合成模型，并在所有 LRS3 音视频增强任务中以单一模型实现了卓越性能。为了证明其在现实世界中的适用性，ReVISE 还在 EasyCom 数据集上进行了评估，该数据集是在具有挑战性的声学条件下收集的音视频基准测试数据集，仅包含 1.6 小时的训练数据。同样地，ReVISE 在该数据集上显著抑制了噪声并提高了质量。项目页面：https://wnhsu.github.io/ReVISE。

源 PDF