17일 전
다중 등록 발화를 통한 자동 화자 인증을 위한 어텐션 백엔드
Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi

초록
확률적 선형 판별 분석(Probabilistic Linear Discriminant Analysis, PLDA) 또는 코사인 유사도는 기존의 발화자 확인 시스템에서 쌍별 유사도를 측정하기 위한 백엔드 기술로 널리 사용되어 왔다. 여러 등록 발화를 보다 효과적으로 활용하기 위해, 본 연구에서는 텍스트 독립형(Text-Independent, TI) 및 텍스트 종속형(Text-Dependent, TD) 발화자 확인 모두에 적용 가능한 새로운 어텐션 백엔드 모델을 제안한다. 이 모델은 등록 발화들 내부의 상호 관계를 학습하기 위해 스케일된 도트 자기 어텐션(Scaled-dot Self-Attention)과 피드포워드 자기 어텐션(Feed-Forward Self-Attention) 네트워크를 아키텍처로 사용한다. 제안된 어텐션 백엔드의 성능을 검증하기 위해, TDNN 및 ResNet과 같은 최첨단 발화자 인코더와 결합하여 CNCeleb 및 VoxCeleb 데이터셋에서 일련의 실험을 수행하였다. CNCeleb 데이터셋에서 다수의 등록 발화를 활용한 실험 결과, 제안된 어텐션 백엔드 모델은 각 발화자 인코더에 대해 기존의 PLDA 및 코사인 유사도 대비 더 낮은 EER(Early Error Rate) 및 minDCF(minimum Detection Cost Function) 점수를 기록하였다. 또한 VoxCeleb에서 수행된 실험 결과, 본 모델이 단일 등록 발화 상황에서도 효과적으로 활용될 수 있음을 확인하였다.