Command Palette
Search for a command to run...
ShiftySpeech 是由约翰霍普金斯大学于 2025 年发布的一个大规模合成语音检测基准,相关论文成果为「ShiftySpeech: A Large-Scale Synthetic Speech Dataset with Distribution Shifts」,旨在研究语音合成检测模型在真实世界中面对「分布漂移」(包括语言、说话人、生成模型、录音条件变化)时的泛化能力。
该数据集包含超过 3,000 小时的合成语音,覆盖 7 个源域,包括阅读风格、播客、 YouTube 等带有背景噪声或非标准录音条件的场景,以及语言差异、说话人年龄、口音、性别等变化。数据涵盖 3 种语言(英文、中文、日文),使用 6 种 TTS(文本转语音)系统和 12 种 vocoder(声码器/波形生成器)生成语音,以构造不同程度的系统分布漂移。