13 天前

ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包

Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包
摘要

本文介绍了ESPnet-SPK,一个专为训练说话人嵌入提取器而设计的工具包,旨在实现多项目标。首先,我们为说话人识别领域的研究人员提供了一个开源平台,使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计,研究人员可便捷地开发模型变体。同时,我们致力于促进已训练模型在其他领域的应用,推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器,并通过两个任务的集成实例展示了该工具包的通用性。此外,本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案,在Vox1-O评估协议上,基于WavLM-Large与ECAPA-TDNN的组合,实现了0.39%的等错误率(Equal Error Rate, EER)。