17일 전
wav2vec 2.0: 음성 표현을 위한 자기지도 학습 프레임워크
Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

초록
우리는 음성 오디오에서만 강력한 표현을 학습한 후 전사된 음성 데이터를 이용한 미세조정을 수행하면, 가장 우수한 반감독 학습 방법을 초월할 수 있음을 처음으로 보여준다. wav2vec 2.0는 음성 입력을 잠재 공간에서 마스킹하고, 동시에 학습되는 양자화된 잠재 표현을 기반으로 한 대조적 과제를 해결한다. Librispeech의 모든 라벨 데이터를 사용한 실험에서, 깨끗한 테스트 세트와 기타 테스트 세트에서 각각 1.8/3.3의 WER(단어 오류율)을 달성하였다. 라벨 데이터를 1시간으로 줄였을 때, wav2vec 2.0는 100시간 데이터 서브셋에서 기존의 최고 성능 기법을 뛰어넘었으며, 라벨 데이터 사용량은 100분의 1에 불과했다. 단 10분의 라벨 데이터와 53,000시간의 라벨 없이 학습된 데이터를 사용해도 4.8/8.2의 WER를 달성할 수 있었다. 이는 제한된 양의 라벨 데이터로도 음성 인식이 가능함을 보여주는 실질적인 증거이다.