2 个月前
SpeechNAS:实现大规模说话人验证中延迟与准确率之间的更好权衡
Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu

摘要
近期,x-vector 成为了说话人验证中一种成功且流行的方法,该方法利用时延神经网络(TDNN)和统计池化技术从可变长度的语音片段中提取说话人的特征嵌入。对 x-vector 的改进一直是研究热点,基于 x-vector 设计了多种复杂的神经网络架构,例如扩展的 TDNN(E-TDNN)、因子分解的 TDNN(F-TDNN)和密集连接的 TDNN(D-TDNN)。在本工作中,我们尝试通过神经架构搜索(NAS)从基于 TDNN 的搜索空间中识别出最优的网络架构,并将其命名为 SpeechNAS。借助说话人识别领域的最新进展,如高阶统计池化、多分支机制、D-TDNN 和最小超球能量(MHE)下的角度加性边距 Softmax 损失(AAM),SpeechNAS 自动发现了五种不同参数量和 GFLOPs 的网络架构,从 SpeechNAS-1 到 SpeechNAS-5,在大规模文本无关的说话人识别数据集 VoxCeleb1 上进行了评估。我们所推导出的最佳神经网络在 VoxCeleb1 标准测试集上实现了 1.02% 的等错误率(EER),大幅超越了以往基于 TDNN 的最先进方法。代码和训练权重已发布在 https://github.com/wentaozhu/speechnas.git