8일 전

엔드투엔드 신경망 스피커 다이어리제이션 with 자체 주의(셀프 어텐션)

Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, Shinji Watanabe
엔드투엔드 신경망 스피커 다이어리제이션 with 자체 주의(셀프 어텐션)
초록

화자 다이어레이션은 주로 화자 임베딩의 군집화 기반으로 개발되어 왔다. 그러나 군집화 기반 접근법은 두 가지 주요한 문제를 가지고 있다. 첫째, 다이어레이션 오류를 직접 최소화하도록 최적화되어 있지 않으며, 둘째, 화자 겹침(speaker overlap) 상황을 올바르게 처리할 수 없다는 점이다. 이러한 문제를 해결하기 위해 최근, 다화자 음성 녹음 파일을 입력으로 받아 직접 화자 다이어레이션 결과를 출력하는 양방향 장단기 기억망(BLSTM)을 사용한 엔드투엔드 신경 다이어레이션(EEND)이 제안되었다. 본 연구에서는 BLSTM 블록 대신 자기 주목(self-attention) 블록을 도입함으로써 EEND의 성능을 향상시켰다. BLSTM은 이전 및 다음 은닉 상태에만 조건을 받는 반면, 자기 주목은 모든 다른 프레임에 직접 조건을 받기 때문에 화자 다이어레이션 문제에 더 적합하다. 제안한 방법은 시뮬레이션된 혼합 음성, 실제 전화 통화, 실제 대화 녹음 데이터를 대상으로 평가되었다. 실험 결과, 자기 주목이 우수한 성능을 달성하는 핵심 요소임을 확인하였으며, 기존의 BLSTM 기반 방법보다 유의미하게 뛰어난 성능을 보였다. 또한 최신의 x-vector 군집화 기반 방법보다도 더 뛰어난 성능을 기록하였다. 마지막으로, 잠재 표현(latent representation)을 시각화함으로써 자기 주목이 지역적인 음성 활동 동역학뿐만 아니라 전반적인 화자 특징도 잘 포착할 수 있음을 보여주었다. 본 연구의 소스 코드는 https://github.com/hitachi-speech/EEND 에 공개되어 있다.

엔드투엔드 신경망 스피커 다이어리제이션 with 자체 주의(셀프 어텐션) | 최신 연구 논문 | HyperAI초신경