
摘要
机器学习,以及更广义的人工智能方法,在计算机科学的各个领域均带来了显著进展,显著提升了各类已知问题中预测模型的准确性。事实上,这一发展推动了高效框架与解决方案的构建,使其能够应用于调查与取证场景,用于检测多媒体内容中的伪造行为,以及更广泛意义上的内容篡改。然而,我们是否应完全信赖这些系统?当前的研究方向是否真正正确?我们是否仅仅在采摘“低垂的果实”,而忽视了大量真实世界中的复杂情境?本文旨在针对合成语音检测这一特定领域向研究界发出警示:当前用于训练的数据集规模尚不足以使我们对现有文献中技术的可靠性产生充分信心。为此,本文对最常用的语音欺骗数据集进行了探索性分析,结果令人惊讶地发现,仅通过构建简单的分类器(无需任何深度学习技术),即可实现有效的检测性能。仅基于码率(bitrate)的简单分析,便足以达到令人满意的检测效果。