8 个月前

音频和语音处理

卷积神经网络

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

摘要

近期，x-vector 成为了说话人验证中一种成功且流行的方法，该方法利用时延神经网络（TDNN）和统计池化技术从可变长度的语音片段中提取说话人的特征嵌入。对 x-vector 的改进一直是研究热点，基于 x-vector 设计了多种复杂的神经网络架构，例如扩展的 TDNN（E-TDNN）、因子分解的 TDNN（F-TDNN）和密集连接的 TDNN（D-TDNN）。在本工作中，我们尝试通过神经架构搜索（NAS）从基于 TDNN 的搜索空间中识别出最优的网络架构，并将其命名为 SpeechNAS。借助说话人识别领域的最新进展，如高阶统计池化、多分支机制、D-TDNN 和最小超球能量（MHE）下的角度加性边距 Softmax 损失（AAM），SpeechNAS 自动发现了五种不同参数量和 GFLOPs 的网络架构，从 SpeechNAS-1 到 SpeechNAS-5，在大规模文本无关的说话人识别数据集 VoxCeleb1 上进行了评估。我们所推导出的最佳神经网络在 VoxCeleb1 标准测试集上实现了 1.02% 的等错误率（EER），大幅超越了以往基于 TDNN 的最先进方法。代码和训练权重已发布在 https://github.com/wentaozhu/speechnas.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

卷积神经网络

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

摘要

近期，x-vector 成为了说话人验证中一种成功且流行的方法，该方法利用时延神经网络（TDNN）和统计池化技术从可变长度的语音片段中提取说话人的特征嵌入。对 x-vector 的改进一直是研究热点，基于 x-vector 设计了多种复杂的神经网络架构，例如扩展的 TDNN（E-TDNN）、因子分解的 TDNN（F-TDNN）和密集连接的 TDNN（D-TDNN）。在本工作中，我们尝试通过神经架构搜索（NAS）从基于 TDNN 的搜索空间中识别出最优的网络架构，并将其命名为 SpeechNAS。借助说话人识别领域的最新进展，如高阶统计池化、多分支机制、D-TDNN 和最小超球能量（MHE）下的角度加性边距 Softmax 损失（AAM），SpeechNAS 自动发现了五种不同参数量和 GFLOPs 的网络架构，从 SpeechNAS-1 到 SpeechNAS-5，在大规模文本无关的说话人识别数据集 VoxCeleb1 上进行了评估。我们所推导出的最佳神经网络在 VoxCeleb1 标准测试集上实现了 1.02% 的等错误率（EER），大幅超越了以往基于 TDNN 的最先进方法。代码和训练权重已发布在 https://github.com/wentaozhu/speechnas.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供