17 天前
基于迁移学习的深度卷积神经网络音频欺骗检测
Rahul T P, P R Aravind, Ranjith C, Usamath Nechiyil, Nandakumar Paramparambath

摘要
近年来,自动说话人验证(Automatic Speaker Verification, ASV)系统日益受到关注,但欺骗攻击(spoofing attacks)已成为其面临的主要安全威胁,严重削弱了系统的可靠性。其中,重放攻击(Replay attacks)等欺骗手段实现简单,却极难被有效检测,因此亟需开发有效的防御机制。本文提出一种基于深度卷积神经网络的语音分类方法,用于检测各类欺骗攻击。所提方法采用梅尔频率尺度下的功率谱密度时频声学表示(Mel-spectrogram),并结合深度残差学习策略(基于ResNet-34架构的改进版本)。实验结果表明,在ASVspoof 2019数据集的逻辑访问场景下,该单模型系统在开发集上实现了0.9056%的等错误率(Equal Error Rate, EER),在测试集上达到5.32%;在物理访问场景下,开发集EER为5.87%,测试集EER为5.74%,展现出优异的欺骗检测性能。