
초록
단일 채널 음성 분리에서 미지의 화자 수를 고려한 엔드 투 엔드 학습 가능한 접근 방식을 제안한다. 본 연구는 MulCat 음성 분리 기반 모델에 추가적인 출력 헤드를 도입하여 확장한다. 구체적으로, 화자 수를 추정하는 카운트 헤드와 원본 신호를 재구성하는 디코더 헤드를 포함한다. 모델 외에도, 화자 수가 변하는 상황에서의 음성 분리 성능 평가를 위한 새로운 평가 지표를 제안한다. 특히, 실제 레이블(ground-truth)에 포함된 화자 수가 모델이 예측한 화자 수보다 많거나 적을 경우의 평가 품질 문제를 명확히 해결하였다. 제안한 방법은 최대 5명의 화자까지 포함된 WSJ0-mix 데이터셋에서 평가되었으며, 화자 수를 정확히 추정하는 데 있어 기존 최고 성능의 방법들을 능가함을 입증하였다. 또한 재구성된 신호의 품질 면에서도 경쟁력 있는 성능을 보였다.