2 个月前

FastAudio:一种可学习的音频前端用于伪造语音检测

Fu, Quchen ; Teng, Zhongwei ; White, Jules ; Powell, Maria ; Schmidt, Douglas C.
FastAudio:一种可学习的音频前端用于伪造语音检测
摘要

语音助手,如智能音箱,近年来广受欢迎。据目前估计,智能音箱在美国成年人中的普及率已超过35%。制造商集成了说话人识别技术,该技术旨在确定说话人的身份,以便为同一家庭的不同成员提供个性化服务。说话人识别在控制智能音箱的使用方面也发挥着重要作用。例如,在播放音乐时,正确识别用户并不是关键;但在大声读取用户的电子邮件时,则必须准确验证发出请求的说话人是否为授权用户。因此,作为防止各种旨在冒充注册用户的欺骗攻击的守门员,说话人验证系统(用于验证说话人身份)是必不可少的。本文比较了流行的可学习前端架构,这些架构通过与下游任务联合训练来学习音频表示(端到端)。我们通过定义两种通用架构对前端进行分类,并分析了这两种类型在学习约束方面的滤波阶段。我们建议用一个可学习层替代固定的滤波器组,以更好地适应反欺骗任务。所提出的FastAudio前端随后与两个流行的后端结合测试,以评估其在ASVspoof 2019数据集LA赛道上的性能。FastAudio前端相比固定前端实现了27%的相对改进,在此任务上优于所有其他可学习前端。

FastAudio:一种可学习的音频前端用于伪造语音检测 | 最新论文 | HyperAI超神经