9일 전
BigSSL: 대규모 반감독 학습의 경계 탐색: 자동 음성 인식을 위한 접근
Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu

초록
대규모 비라벨 데이터셋(약 100만 시간의 음성 데이터 포함)을 활용해 사전 훈련된 거대한 자동 음성 인식(ASR) 모델을 활용한 다양한 노력의 결과를 요약한다. 사전 훈련, 자기 훈련(self-training), 모델 크기 확장의 조합이, 심지어 수만 시간에 이르는 라벨 데이터를 필요로 하는 매우 큰 작업에서도 데이터 효율성을 크게 향상시킨다는 것을 발견했다. 특히, 라벨 데이터가 34,000시간인 ASR 작업에서, 80억 파라미터의 사전 훈련된 Conformer 모델을 미세 조정(fine-tuning)함으로써 전체 훈련 데이터의 단 3%만으로도 최신 기준(SoTA) 성능을 달성할 수 있었으며, 전체 데이터셋을 사용할 경우 최신 기준 성능을 상당히 향상시킬 수 있었다. 또한, 다양한 음성 분야를 아우르고 데이터셋 크기가 수개 차수에 걸쳐 다양하게 분포된 다수의 하류 작업들에 대해, 대규모 사전 훈련 및 자기 훈련된 모델을 사용함으로써 얻는 보편적인 이점에 대해 보고한다. 이는 많은 공개 벤치마크에서 최신 기준 성능을 달성하는 것을 포함한다. 더불어, 사전 훈련된 네트워크가 학습한 표현을 활용하여 비-ASR 작업에서도 최신 기준 성능을 달성하는 데 성공했다.