7 个月前

音频和语音处理

多任务学习

Author1 Author2

摘要

多年来，基于i-vector的音频嵌入技术一直是说话人验证和说话人日志化应用中的主流方法。然而，随着深度学习在各个领域的兴起，基于神经网络的音频嵌入技术，也称为d-vector，已持续展现出更优的说话人验证性能。本文在此基础上，开发了一种新的基于d-vector的说话人日志化方法。具体而言，我们将基于LSTM的d-vector音频嵌入与近期非参数聚类的研究成果相结合，构建了一个最先进的说话人日志化系统。我们的系统在三个标准公开数据集上进行了评估，结果表明基于d-vector的日志化系统相比传统的i-vector系统具有显著优势。我们在NIST SRE 2000 CALLHOME数据集上实现了12.0%的日志化错误率，而模型训练所使用的数据来自语音搜索日志（out-of-domain data）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

多任务学习

Author1 Author2

摘要

多年来，基于i-vector的音频嵌入技术一直是说话人验证和说话人日志化应用中的主流方法。然而，随着深度学习在各个领域的兴起，基于神经网络的音频嵌入技术，也称为d-vector，已持续展现出更优的说话人验证性能。本文在此基础上，开发了一种新的基于d-vector的说话人日志化方法。具体而言，我们将基于LSTM的d-vector音频嵌入与近期非参数聚类的研究成果相结合，构建了一个最先进的说话人日志化系统。我们的系统在三个标准公开数据集上进行了评估，结果表明基于d-vector的日志化系统相比传统的i-vector系统具有显著优势。我们在NIST SRE 2000 CALLHOME数据集上实现了12.0%的日志化错误率，而模型训练所使用的数据来自语音搜索日志（out-of-domain data）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供