17일 전

화자 인식을 위한 메트릭 학습의 방어

Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han
화자 인식을 위한 메트릭 학습의 방어
초록

이 논문의 목적은 미리 보지 못한 화자에 대한 '오픈셋(Open-set)' 화자 인식을 달성하는 것으로, 이상적인 임베딩은 말뭉치 수준의 표현으로 정보를 압축하여 화자 내 거리는 작고 화자 간 거리는 큰 특성을 가져야 한다. 화자 인식 분야에서는 분류 기반 목적함수로 훈련된 네트워크가 메트릭 학습 방법보다 성능이 우수하다는 관념이 널리 퍼져 있다. 본 논문에서는 VoxCeleb 데이터셋을 기반으로 화자 인식에 가장 널리 사용되는 손실 함수들을 종합적으로 평가한다. 결과적으로 기존의 트리플릿 손실( vanilla triplet loss)이 분류 기반 손실 함수들과 경쟁 가능한 성능을 보임을 입증하며, 본 연구에서 제안한 메트릭 학습 목적함수로 훈련된 모델이 최신 기술(SOTA)을 초월하는 성능을 달성함을 보여준다.