2달 전
ZeroSpeech 2020 챌린지에서 음성 단위 발견을 위한 벡터 양자화 신경망
Benjamin van Niekerk; Leanne Nortje; Herman Kamper

초록
본 논문에서는 음성 단위 발견을 위한 벡터 양자화를 탐구합니다. 라벨이 부착되지 않은 데이터를 활용하여, 화자 특유의 세부 정보와 분리된 음성의 이산 표현을 학습하는 것을 목표로 합니다. 이 과제를 해결하기 위해 두 가지 신경망 모델을 제안합니다. 두 모델 모두 연속적인 특성을 유한 개수의 코드 집합으로 매핑하기 위해 벡터 양자화를 사용합니다. 첫 번째 모델은 벡터 양자화 변분 오토인코더(VQ-VAE) 유형입니다. VQ-VAE는 음성을 이산 단위 시퀀스로 인코딩한 후 오디오 웨이브폼을 재구성합니다. 두 번째 모델은 벡터 양자화와 대조적 예측 코딩(VQ-CPC)을 결합한 것입니다. 이 방법은 미래의 음성 단위를 예측하여 음성 표현을 학습하는 아이디어에 기반합니다. 우리는 영어와 인도네시아어 데이터를 사용하여 ZeroSpeech 2020 챌린지에서 모델들을 평가했습니다. ABX 전화 구별 테스트에서 두 모델 모두 2019년과 2020년 챌린지에 제출된 모든 결과보다 우수한 성능을 보였으며, 상대적으로 30% 이상의 개선률을 나타냈습니다. 또한, 하류 음성 변환 작업에서도 두 모델은 경쟁력 있는 성능을 보였습니다. 두 모델 중 VQ-CPC는 일반적으로 약간 더 우수하며, 학습이 간단하고 빠릅니다. 마지막으로, 탐사 실험은 벡터 양자화가 효과적인 병목 현상(bottleneck) 역할을 하여, 모델들이 화자 정보를 버리도록 강제한다는 것을 보여주었습니다.