8일 전
TitaNet: 1D 깊이 방향 분리형 합성곱과 전역적 맥락을 갖춘 화자 표현을 위한 신경 모델
Nithin Rao Koluguri, Taejin Park, Boris Ginsburg

초록
이 논문에서는 화자 표현을 추출하기 위한 새로운 신경망 아키텍처인 TitaNet을 제안한다. 우리는 1차원 깊이 방향 분리형 합성곱(1D depth-wise separable convolutions)을 사용하며, 전역적 맥락을 반영한 Squeeze-and-Excitation(SE) 레이어를 적용한 후 채널 주의 기반의 통계 풀링 레이어를 통해 길이가 변하는 발화 문장을 고정 길이의 임베딩(t-벡터)으로 매핑한다. TitaNet은 확장 가능한 아키텍처로, VoxCeleb1 테스트 파일에서 등가 오류율(Equal Error Rate, EER) 0.68%를 달성하며 화자 확인(speaker verification) 작업에서 최신 기술 수준의 성능을 보였다. 또한, AMI-MixHeadset에서 1.73%, AMI-Lapel에서 1.99%, CH109에서 1.11%의 화자 다이어라이제이션 오류율(Diarization Error Rate, DER)을 기록하여 화자 다이어라이제이션 작업에서도 뛰어난 성능을 보였다. 더불어 TitaNet의 다양한 크기 구조를 탐구하며, 단지 6M의 파라미터만을 가진 경량형 TitaNet-S 모델을 제안하였으며, 이는 화자 다이어라이제이션 작업에서 최신 기술 수준에 근접한 결과를 달성하였다.