摘要
语音诈骗(vishing)因其语音合成技术的发展而日益盛行。特别是,利用深度学习生成任意内容、模拟受害者声音的音频片段,使得人类难以辨别,甚至对自动说话人验证(ASV)系统也构成严峻挑战。为应对这一威胁,近年来已开发出多种对抗性检测(Countermeasure, CM)系统,以增强ASV系统对合成语音的识别能力。本文提出一种名为BTS-E的框架,用于评估音频片段中呼吸声、说话声与静默声之间的相关性,并利用该信息开展深度伪造语音检测任务。我们认为,自然的人类声音特征(如呼吸声)难以通过文本转语音(TTS)系统精确合成。为此,我们在ASVspoof 2019与2021评测数据集上开展了大规模实验,验证了该假设。实验结果表明,呼吸声特征在深度伪造语音检测中具有显著的适用性。总体而言,所提出的系统可使分类器性能提升高达46%。