한 달 전

완전 감독된 화자 분리

Aonan Zhang; Quan Wang; Zhenyao Zhu; John Paisley; Chong Wang
완전 감독된 화자 분리
초록

본 논문에서는 완전히 지도된 화자 분리 접근법인 무한 교차 상태 순환 신경망(unbounded interleaved-state recurrent neural networks, UIS-RNN)을 제안합니다. 입력 발화에서 추출된 화자 구분 임베딩(즉, d-벡터)을 기반으로 각 개별 화자는 파라미터 공유 RNN으로 모델링되며, 다른 화자의 RNN 상태는 시간 영역에서 교차됩니다. 이 RNN은 자연스럽게 거리 종속 중국 음식점 프로세스(distance-dependent Chinese restaurant process, ddCRP)와 통합되어 알려지지 않은 수의 화자를 수용할 수 있습니다. 우리의 시스템은 완전히 지도적이며, 시간 스탬프가 부착된 화자 라벨이 주석화된 예제로부터 학습할 수 있습니다. 우리는 NIST SRE 2000 CALLHOME 데이터셋에서 7.6%의 화자 분리 오류율을 달성하였으며, 이는 스펙트럼 클러스터링을 사용하는 최신 방법보다 우수한 결과입니다. 또한, 우리의 방법은 온라인 방식으로 디코딩되는데 반해 대부분의 최신 시스템들은 오프라인 클러스터링에 의존하고 있습니다.

완전 감독된 화자 분리 | 최신 연구 논문 | HyperAI초신경