6 个月前

摘要

近年来，单通道语音分离技术取得了显著进展。然而，当前方法依赖于排列不变损失（Permutation Invariant Loss, PIT），难以实现对大量说话人（例如超过10人）的神经语音分离训练。本文提出一种新型排列不变训练方法，采用匈牙利算法（Hungarian algorithm），将时间复杂度降低至 $O(C^3)$ ，其中 $C$ 为说话人数量，相较于基于 PIT 的方法 $O(C!)$ 的复杂度有显著优化。此外，我们还设计了一种改进的网络架构，能够有效应对说话人数量增加带来的挑战。实验结果表明，所提方法可实现最多20名说话人的语音分离，并在大规模说话人场景下显著超越以往方法的性能。