11 天前

基于自监督XLS-R与SLS分类器的音频深度伪造检测

{Tao Hu, Shuangbing Wen, Qishan Zhang}
基于自监督XLS-R与SLS分类器的音频深度伪造检测
摘要

生成式人工智能技术,包括文本转语音(Text-to-Speech, TTS)与语音转换(Voice Conversion, VC),其生成的音频样本已日益逼近真实语音,难以与真实音频区分开来,给个体辨别真实与合成内容带来了严峻挑战。这种难以区分的特性严重削弱了公众对媒体内容的信任,而个人语音信号的任意克隆更对隐私与安全构成重大威胁。在深度伪造音频检测领域,目前大多数实现高检测准确率的模型均依赖于自监督预训练模型。然而,随着深度伪造音频生成算法的持续演进,模型在面对新型生成技术时维持高判别能力的难度日益增加。为提升深度伪造音频特征的敏感性,本文提出一种融合敏感层选择(Sensitive Layer Selection, SLS)模块的深度伪造音频检测模型。具体而言,该模型利用预训练的XLS-R模型,从其不同网络层中提取多样化的音频特征,各层所提供的判别信息具有独特性。通过引入SLS分类器,模型能够捕捉音频特征在不同层级上的敏感上下文信息,并有效利用这些信息进行伪造音频的识别。实验结果表明,所提方法在ASVspoof 2021 DF与In-the-Wild两个基准数据集上均达到了当前最先进的性能(State-of-the-Art, SOTA)。其中,在ASVspoof 2021 DF数据集上,等错误率(Equal Error Rate, EER)低至1.92%;在In-the-Wild数据集上,EER为7.46%。相关代码与数据集可访问GitHub仓库:https://github.com/QiShanZhang/SLSforADD。

基于自监督XLS-R与SLS分类器的音频深度伪造检测 | 最新论文 | HyperAI超神经