HyperAIHyperAI

Command Palette

Search for a command to run...

基于最优排列训练的多说话人单通道语音分离

Shaked Dovrat Eliya Nachmani Lior Wolf

摘要

近年来,单通道语音分离技术取得了显著进展。然而,当前方法依赖于排列不变损失(Permutation Invariant Loss, PIT),难以实现对大量说话人(例如超过10人)的神经语音分离训练。本文提出一种新型排列不变训练方法,采用匈牙利算法(Hungarian algorithm),将时间复杂度降低至 O(C3)O(C^3)O(C3),其中 CCC 为说话人数量,相较于基于 PIT 的方法 O(C!)O(C!)O(C!) 的复杂度有显著优化。此外,我们还设计了一种改进的网络架构,能够有效应对说话人数量增加带来的挑战。实验结果表明,所提方法可实现最多20名说话人的语音分离,并在大规模说话人场景下显著超越以往方法的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供