16 天前

端到端光谱-时序图注意力网络用于说话人验证反欺骗与语音深度伪造检测

Hemlata Tak, Jee-weon Jung, Jose Patino, Madhu Kamble, Massimiliano Todisco, Nicholas Evans
端到端光谱-时序图注意力网络用于说话人验证反欺骗与语音深度伪造检测
摘要

能够区分真实语音与伪造语音(如深度伪造语音)的特征通常存在于特定的频带和时间片段中。尽管已有多种方法可用于捕捉和建模此类特征,但现有方法在应对多样化的伪造攻击时表现参差不齐,难以实现普适性。因此,可靠的检测通常依赖于多个检测系统的融合,每个系统针对不同类型的攻击进行优化。本文提出,若将融合机制嵌入模型内部,并通过原始波形输入自动学习特征表示,可显著提升检测性能。本文的核心贡献是一种时频图注意力网络(Spectro-Temporal Graph Attention Network, GAT),该网络能够自动学习跨不同频带与时间区间特征线索之间的关联关系。通过在模型层面实现频谱(S)子图与时间(T)子图的图融合,并引入图池化策略以增强判别能力,所提出的RawGAT-ST模型在ASVspoof 2019逻辑访问数据库上的等错误率(Equal Error Rate, EER)达到1.06%,为目前报道的最优结果之一,且可通过开源实现复现。