17일 전

자기 학습과 사전 학습은 음성 인식에서 상호 보완적이다.

Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello, Alexis Conneau, Ronan Collobert, Gabriel Synnaeve, Michael Auli
자기 학습과 사전 학습은 음성 인식에서 상호 보완적이다.
초록

자기 학습(self-training)과 비지도 사전 학습(unsupervised pre-training)은 레이블이 없는 데이터를 활용하여 음성 인식 시스템의 성능을 향상시키는 효과적인 접근법으로 부상하고 있다. 그러나 이러한 방법들이 유사한 패턴을 학습하는지, 또는 효과적으로 결합될 수 있는지에 대해서는 명확하지 않다. 본 연구에서는 다양한 레이블 데이터 설정에서 의사 레이블링(pseudo-labeling)과 wav2vec 2.0를 활용한 사전 학습이 상호 보완적임을 보여준다. Libri-light에서 단 10분의 레이블 데이터와 LibriVox에서의 53,000시간의 레이블 없이 데이터를 사용함으로써, LibriSpeech의 클린 및 기타 테스트 세트에서 각각 3.0%/5.2%의 WER(오류율)를 달성하였으며, 이는 단지 1년 전에 960시간의 레이블 데이터로만 학습된 최고 성능의 공개 시스템과 경쟁할 수 있는 수준이다. LibriSpeech의 모든 레이블 데이터를 사용하여 학습할 경우, WER은 각각 1.5% 및 3.1%에 달한다.