17일 전

SpeechStew: 모든 이용 가능한 음성 인식 데이터를 간단히 혼합하여 하나의 대규모 신경망을 훈련시키기

William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi
SpeechStew: 모든 이용 가능한 음성 인식 데이터를 간단히 혼합하여 하나의 대규모 신경망을 훈련시키기
초록

우리는 AMI, 방송 뉴스, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, Wall Street Journal 등 다양한 공개된 음성 인식 데이터셋을 결합하여 훈련한 음성 인식 모델인 SpeechStew를 제안한다. SpeechStew는 각 데이터셋에 특별한 재가중 또는 재균형 조정 없이 단순히 모든 데이터셋을 혼합하여 훈련한다. 이 모델은 외부 언어 모델을 사용하지 않음에도 불구하고 다양한 작업에서 최신 기준(SoTA) 또는 그에 근접하는 성능을 달성한다. 특히 AMI-IHM에서 9.0%의 WER, Switchboard에서 4.7%의 WER, CallHome에서 8.3%의 WER, WSJ에서는 1.3%의 WER를 기록하며, 강력한 외부 언어 모델을 사용한 이전 연구들보다 크게 우수한 성능을 보였다. 또한 SpeechStew가 강력한 전이 학습 표현(transfer learning representations)을 학습함을 실험을 통해 입증하였다. 우리는 SpeechStew를 노이즈가 많은 저자원 음성 데이터셋인 CHiME-6에 대해 미세조정(fine-tuning)하였으며, 언어 모델 없이도 38.9%의 WER를 달성하였다. 이는 언어 모델을 사용한 강력한 HMM 기반 기준 모델의 38.6% WER와 거의 동등한 수준이다.