
초록
Sparsespeech 모델은 비정제된 음성 데이터에 대해 이산형 가상 레이블(또는 편집 레이블)을 생성할 수 있는 비지도 음성 모델이다. 본 연구에서는 Sparsespeech 모델을 확장하여 랜덤한 이산 변수에 대한 샘플링이 가능하도록 하여, 가상 사후 확률 지도(pseudo-posteriorgrams)를 생성할 수 있도록 하였다. 이 사후 확률 지도의 희소성(sparsity)는 모델 학습 후에도 완전히 제어할 수 있다. 신경망 내에서 이산 분포로부터 근사적인 샘플링을 수행하기 위해 Gumbel-Softmax 기법을 사용하였으며, 이는 표준 역전파(backpropagation) 알고리즘을 통해 네트워크를 효율적으로 학습할 수 있도록 한다. 개선된 새로운 모델은 제한된 또는 전혀 지도 신호가 없는 상황에서 ASR 성능을 평가하는 기준 데이터셋인 Libri-Light 코퍼스를 대상으로 학습 및 평가되었다. 모델은 영어 독서 음성 데이터 600시간과 6,000시간을 사용하여 학습하였다. 평가 시에는 ABX 오차 지표와 10시간의 정제된 음성 데이터를 포함한 반지도 학습 설정(semi-supervised setting)을 활용하였다. 결과적으로, 600시간의 음성 데이터를 기반으로 개선된 Sparsespeech 모델이 테스트 세트에서 화자 간 ABX 오차율에서 최대 31.4%의 상대적 개선을 보였으며, 모델 규모를 6,000시간으로 확장함에 따라 더욱 뚜렷한 성능 향상이 관측되었다.