엔드투엔드 신경망 기반 스피커 다이어리제이션: 순열을 고려하지 않는 목적함수를 활용한 방법

이 논문에서는 종단 간(end-to-end) 신경망 기반의 새로운 화자 다이어리제이션 방법을 제안한다. 기존 대부분의 방법들과 달리, 제안된 방법은 화자 표현 추출과 클러스터링을 위한 별도의 모듈을 갖지 않는다. 대신, 단일 신경망 구조를 통해 직접 화자 다이어리제이션 결과를 출력한다. 이러한 모델을 구현하기 위해, 화자 다이어리제이션 문제를 다중 레이블 분류 문제로 재정의하고, 화자 레이블의 순열(permutation) 문제에 영향을 받지 않으면서 다이어리제이션 오류를 직접 최소화할 수 있는 순열 불변(permutation-free) 목적 함수를 도입한다. 종단 간 구조의 단순성 외에도, 제안된 방법은 학습 및 추론 과정에서 겹침 화자 발화(overlapping speech)를 명시적으로 다룰 수 있다는 장점을 갖는다. 이러한 장점 덕분에, 해당 모델은 다중 화자 대화의 실제 기록 데이터를 활용하여, 해당 다중 화자 세그먼트 레이블을 입력만 하면 간편하게 학습 및 적응이 가능하다. 제안된 방법은 시뮬레이션된 음성 혼합 데이터셋을 기반으로 평가되었으며, 제안된 방법은 다이어리제이션 오류율(DER) 12.28%를 달성하였고, 전통적인 클러스터링 기반 시스템은 28.77%의 DER을 기록하였다. 또한, 실제 기록 음성 데이터를 활용한 도메인 적응(Domain Adaptation)을 통해 CALLHOME 데이터셋에서 25.6%의 상대적 개선 효과를 얻었다. 본 연구의 소스 코드는 https://github.com/hitachi-speech/EEND 에 공개되어 있다.