17일 전
자기 학습과 사전 학습은 음성 인식에서 상호 보완적이다.
Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello, Alexis Conneau, Ronan Collobert, Gabriel Synnaeve, Michael Auli

초록
자기 학습(self-training)과 비지도 사전 학습(unsupervised pre-training)은 레이블이 없는 데이터를 활용하여 음성 인식 시스템의 성능을 향상시키는 효과적인 접근법으로 부상하고 있다. 그러나 이러한 방법들이 유사한 패턴을 학습하는지, 또는 효과적으로 결합될 수 있는지에 대해서는 명확하지 않다. 본 연구에서는 다양한 레이블 데이터 설정에서 의사 레이블링(pseudo-labeling)과 wav2vec 2.0를 활용한 사전 학습이 상호 보완적임을 보여준다. Libri-light에서 단 10분의 레이블 데이터와 LibriVox에서의 53,000시간의 레이블 없이 데이터를 사용함으로써, LibriSpeech의 클린 및 기타 테스트 세트에서 각각 3.0%/5.2%의 WER(오류율)를 달성하였으며, 이는 단지 1년 전에 960시간의 레이블 데이터로만 학습된 최고 성능의 공개 시스템과 경쟁할 수 있는 수준이다. LibriSpeech의 모든 레이블 데이터를 사용하여 학습할 경우, WER은 각각 1.5% 및 3.1%에 달한다.