HyperAIHyperAI

Command Palette

Search for a command to run...

ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

摘要

本文介绍了ESPnet-SPK,一个专为训练说话人嵌入提取器而设计的工具包,旨在实现多项目标。首先,我们为说话人识别领域的研究人员提供了一个开源平台,使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计,研究人员可便捷地开发模型变体。同时,我们致力于促进已训练模型在其他领域的应用,推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器,并通过两个任务的集成实例展示了该工具包的通用性。此外,本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案,在Vox1-O评估协议上,基于WavLM-Large与ECAPA-TDNN的组合,实现了0.39%的等错误率(Equal Error Rate, EER)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包 | 论文 | HyperAI超神经