
초록
최근 몇 년 동안 단일 채널 음성 분리 기술은 큰 발전을 이뤘다. 그러나 기존 방법이 퍼뮤테이션 불변 손실(PIT, Permutation Invariant Loss)에 의존하고 있어, 10명 이상의 다수의 발화자(예: 10명 이상)에 대한 신경망 음성 분리 학습은 여전히 현실적으로 불가능한 수준이다. 본 연구에서는 퍼뮤테이션 불변 학습을 개선한 새로운 방법을 제안하며, 이를 위해 헝가리 알고리즘을 활용하여 시간 복잡도를 기존 PIT 기반 방법의 $O(C!)$에서 $O(C^3)$으로 획기적으로 감소시켰다. 여기서 $C$는 발화자 수를 의미한다. 또한, 증가된 발화자 수를 효과적으로 처리할 수 있도록 개선된 아키텍처를 제안한다. 제안된 방법은 최대 20명의 발화자를 분리할 수 있으며, 특히 대규모 발화자 수($C$가 클 경우)에 대해 기존 결과를 크게 초월하는 성능을 달성하였다.