17일 전
TS-SEP: 추정된 화자 임베딩에 조건부한 공동 다이어리제이션 및 분리
Christoph Boeddeker, Aswin Shanmugam Subramanian, Gordon Wichern, Reinhold Haeb-Umbach, Jonathan Le Roux

초록
회의 데이터의 다이어라이제이션(diarization)과 소스 분리(source separation)는 밀접하게 관련된 작업이므로, 본 연구에서는 두 목표를 함께 수행할 수 있는 접근법을 제안한다. 이 방법은 초기 발화자 임베딩(embedding)이 사전에 제공된다고 가정하는 타겟 발화자 음성 활동 탐지(TS-VAD) 다이어라이제이션 기법을 기반으로 한다. TS-VAD의 최종 병합 발화자 활동 추정 네트워크를 대체하여, 시간-주파수 해상도에서 발화자 활동 추정 값을 출력하는 네트워크를 도입한다. 이러한 추정 값은 마스크 형태로 활용되어, 마스킹 또는 비음향빔포밍(beamforming)을 통해 소스 추출에 사용된다. 본 기법은 단일 채널 및 다중 채널 입력 모두에 적용 가능하며, 두 경우 모두 LibriCSS 회의 데이터 인식 작업에서 새로운 최고 성능(word error rate, WER)을 달성한다. 또한, 다이어라이제이션 오류가 전체 WER 성능에 미치는 영향을 명확히 분리하기 위해, 발화자 인지 기반(speaker-aware)과 발화자 무관 기반(speaker-agnostic)의 WER을 추가로 계산하였다.