Command Palette
Search for a command to run...
{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

摘要
得益于语音自监督学习的进展,当前最先进的合成语音检测器在ASVspoof等主流基准测试中已实现极低的错误率。然而,以往的基准测试并未涵盖现实世界中语音的广泛变异性。这些报告的错误率在真实场景下是否具有现实意义?为评估检测器在受控分布偏移下的失效模式与鲁棒性,我们提出了ShiftySpeech——一个包含超过3000小时合成语音的基准数据集,涵盖7个应用场景、6种文本转语音(TTS)系统、12种声码器(vocoder)以及3种语言。实验结果表明,所有分布偏移均导致模型性能下降。与以往研究结论相反,增加声码器种类、说话人数量或使用数据增强,并不能保证模型具备更强的泛化能力。事实上,我们发现使用多样性较低的数据进行训练反而能获得更好的泛化效果;尤其值得注意的是,仅基于单一精心挑选的声码器和少量说话人样本、不使用数据增强训练的检测器,在具有挑战性的“真实场景”(In-the-Wild)基准上取得了当前最优的检测性能。
代码仓库
Ashigarg123/ShiftySpeech
官方
pytorch
GitHub 中提及