6 个月前

音频和语音处理

多任务学习

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

摘要

本文介绍了ESPnet-SPK，一个专为训练说话人嵌入提取器而设计的工具包，旨在实现多项目标。首先，我们为说话人识别领域的研究人员提供了一个开源平台，使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计，研究人员可便捷地开发模型变体。同时，我们致力于促进已训练模型在其他领域的应用，推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器，并通过两个任务的集成实例展示了该工具包的通用性。此外，本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案，在Vox1-O评估协议上，基于WavLM-Large与ECAPA-TDNN的组合，实现了0.39%的等错误率（Equal Error Rate, EER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

摘要

本文介绍了ESPnet-SPK，一个专为训练说话人嵌入提取器而设计的工具包，旨在实现多项目标。首先，我们为说话人识别领域的研究人员提供了一个开源平台，使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计，研究人员可便捷地开发模型变体。同时，我们致力于促进已训练模型在其他领域的应用，推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器，并通过两个任务的集成实例展示了该工具包的通用性。此外，本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案，在Vox1-O评估协议上，基于WavLM-Large与ECAPA-TDNN的组合，实现了0.39%的等错误率（Equal Error Rate, EER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供