2달 전

LSTM을 이용한 화자 분리

Quan Wang; Carlton Downey; Li Wan; Philip Andrew Mansfield; Ignacio Lopez Moreno
LSTM을 이용한 화자 분리
초록

다수의 연도 동안, i-벡터 기반 음성 임베딩 기술은 화자 인증 및 화자 분리 응용 분야에서 주요한 접근 방식이었습니다. 그러나 딥 러닝이 다양한 영역에서 발전함에 따라 신경망 기반 음성 임베딩, 즉 d-벡터가 지속적으로 우수한 화자 인증 성능을 보여주었습니다. 본 논문에서는 d-벡터 기반 화자 인증 시스템의 성공을 바탕으로 새로운 d-벡터 기반 화자 분리 접근 방식을 개발하였습니다. 구체적으로, LSTM 기반 d-벡터 음성 임베딩과 최근 비모수적 클러스터링 연구를 결합하여 최신 수준의 화자 분리 시스템을 구축하였습니다. 우리의 시스템은 세 가지 표준 공개 데이터셋에서 평가되었으며, d-벡터 기반 분리 시스템이 전통적인 i-벡터 기반 시스템보다 상당한 장점을 제공한다는 것을 제시하고 있습니다. NIST SRE 2000 CALLHOME 데이터셋에서 12.0%의 화자 분리 오류율을 달성하였으며, 이 모델은 음성 검색 로그에서 얻은 도메인 외 데이터로 훈련되었습니다.