15일 전

다수의 화자 수가 미지인 음성 분리

Eliya Nachmani, Yossi Adi, Lior Wolf

초록

다수의 음성들이 동시에 발화되는 혼합 오디오 시퀀스를 분리하는 새로운 방법을 제안한다. 제안하는 방법은 여러 처리 단계에서 음성을 분리하도록 훈련되는 게이트(gated) 신경망을 활용하며, 각 출력 채널 내의 화자(발화자)를 고정된 상태로 유지한다. 가능한 화자 수에 따라 각각 다른 모델을 훈련시키며, 주어진 샘플의 실제 화자 수를 결정하기 위해 화자 수가 가장 많은 모델을 사용한다. 실험 결과, 기존의 최고 성능 기법과 비교했을 때 본 방법은 훨씬 뛰어난 성능을 보이며, 특히 두 명 이상의 화자에 대해 기존 기법이 경쟁력을 갖지 못함을 입증한다.