
摘要
近年来,单通道语音分离技术取得了显著进展。然而,当前方法依赖于排列不变损失(Permutation Invariant Loss, PIT),难以实现对大量说话人(例如超过10人)的神经语音分离训练。本文提出一种新型排列不变训练方法,采用匈牙利算法(Hungarian algorithm),将时间复杂度降低至 $O(C^3)$,其中 $C$ 为说话人数量,相较于基于 PIT 的方法 $O(C!)$ 的复杂度有显著优化。此外,我们还设计了一种改进的网络架构,能够有效应对说话人数量增加带来的挑战。实验结果表明,所提方法可实现最多20名说话人的语音分离,并在大规模说话人场景下显著超越以往方法的性能。