9일 전
XLS-R: 대규모에서의 자기지도형 다국어 음성 표현 학습
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli

초록
이 논문은 wav2vec 2.0 기반의 다국어 음성 표현 학습을 위한 대규모 모델인 XLS-R를 제안한다. 우리는 128개 언어의 약 50만 시간에 달하는 공개 음성 오디오 데이터를 활용해 최대 20억 파라미터를 가진 모델을 훈련시켰으며, 이는 기존에 알려진 최대 규모의 연구보다 약 10배 이상 많은 공개 데이터를 사용한 것이다. 평가 범위는 다양한 작업, 도메인, 데이터 환경, 고자원 및 저자원 언어를 포함하며 포괄적이다. CoVoST-2 음성 번역 벤치마크에서 XLS-R은 영어로의 21개 번역 방향에 대해 평균적으로 7.4 BLEU 점수를 개선하여 기존 최고 성능을 초과했다. 음성 인식 작업에서는 BABEL, MLS, CommonVoice, VoxPopuli 데이터셋에서 기존 최고 성능을 모두 상회하며, 평균적으로 오류율을 14~34% 감소시켰다. 또한 XLS-R은 VoxLingua107 언어 식별 벤치마크에서 새로운 최고 성능을 기록했다. 더불어, 충분한 모델 크기를 갖춘 경우, 영어 전용 사전 훈련보다 다국어 사전 훈련이 영어 음성을 다른 언어로 번역하는 상황에서 더 우수한 성능을 보임을 보여주었으며, 이는 일반적으로 단일 언어 사전 훈련이 유리한 설정임에도 불구하고 해당 결과를 도출했다. 우리는 XLS-R이 세계의 더 많은 언어에 대한 음성 처리 작업의 성능 향상에 기여하기를 기대한다.