17일 전

비지도 희소음성 음성 모델의 성능 향상을 위한 범주형 재매개화 기법

Benjamin Milde, Chris Biemann
비지도 희소음성 음성 모델의 성능 향상을 위한 범주형 재매개화 기법
초록

Sparsespeech 모델은 비정제된 음성 데이터에 대해 이산형 가상 레이블(또는 편집 레이블)을 생성할 수 있는 비지도 음성 모델이다. 본 연구에서는 Sparsespeech 모델을 확장하여 랜덤한 이산 변수에 대한 샘플링이 가능하도록 하여, 가상 사후 확률 지도(pseudo-posteriorgrams)를 생성할 수 있도록 하였다. 이 사후 확률 지도의 희소성(sparsity)는 모델 학습 후에도 완전히 제어할 수 있다. 신경망 내에서 이산 분포로부터 근사적인 샘플링을 수행하기 위해 Gumbel-Softmax 기법을 사용하였으며, 이는 표준 역전파(backpropagation) 알고리즘을 통해 네트워크를 효율적으로 학습할 수 있도록 한다. 개선된 새로운 모델은 제한된 또는 전혀 지도 신호가 없는 상황에서 ASR 성능을 평가하는 기준 데이터셋인 Libri-Light 코퍼스를 대상으로 학습 및 평가되었다. 모델은 영어 독서 음성 데이터 600시간과 6,000시간을 사용하여 학습하였다. 평가 시에는 ABX 오차 지표와 10시간의 정제된 음성 데이터를 포함한 반지도 학습 설정(semi-supervised setting)을 활용하였다. 결과적으로, 600시간의 음성 데이터를 기반으로 개선된 Sparsespeech 모델이 테스트 세트에서 화자 간 ABX 오차율에서 최대 31.4%의 상대적 개선을 보였으며, 모델 규모를 6,000시간으로 확장함에 따라 더욱 뚜렷한 성능 향상이 관측되었다.

비지도 희소음성 음성 모델의 성능 향상을 위한 범주형 재매개화 기법 | 최신 연구 논문 | HyperAI초신경