8 个月前

摘要

语音助手，如智能音箱，近年来广受欢迎。据目前估计，智能音箱在美国成年人中的普及率已超过35%。制造商集成了说话人识别技术，该技术旨在确定说话人的身份，以便为同一家庭的不同成员提供个性化服务。说话人识别在控制智能音箱的使用方面也发挥着重要作用。例如，在播放音乐时，正确识别用户并不是关键；但在大声读取用户的电子邮件时，则必须准确验证发出请求的说话人是否为授权用户。因此，作为防止各种旨在冒充注册用户的欺骗攻击的守门员，说话人验证系统（用于验证说话人身份）是必不可少的。本文比较了流行的可学习前端架构，这些架构通过与下游任务联合训练来学习音频表示（端到端）。我们通过定义两种通用架构对前端进行分类，并分析了这两种类型在学习约束方面的滤波阶段。我们建议用一个可学习层替代固定的滤波器组，以更好地适应反欺骗任务。所提出的FastAudio前端随后与两个流行的后端结合测试，以评估其在ASVspoof 2019数据集LA赛道上的性能。FastAudio前端相比固定前端实现了27%的相对改进，在此任务上优于所有其他可学习前端。

源 PDF 查看代码