2달 전
wav2vec: 음성 인식을 위한 비지도 사전 학습
Steffen Schneider; Alexei Baevski; Ronan Collobert; Michael Auli

초록
우리는 원시 오디오의 표현을 학습하여 음성 인식을 위한 비지도 사전 학습을 탐구합니다. wav2vec은 많은 양의 라벨이 없는 오디오 데이터로 훈련되며, 그 결과로 얻어진 표현들은 이후 음향 모델 훈련을 개선하는 데 사용됩니다. 우리는 노이즈 대조 이진 분류 작업을 통해 최적화된 간단한 다층 컨볼루션 신경망을 사전 훈련합니다. WSJ에서 수행한 실험에서는 몇 시간의 전사 데이터만 있는 경우 기존 문자 기반 로그-멜 필터뱅크 베이스라인의 WER(Word Error Rate)를 최대 36%까지 감소시켰습니다. 우리의 접근 방식은 nov92 테스트 세트에서 2.43%의 WER를 달성했습니다. 이는 문헌에 보고된 가장 우수한 문자 기반 시스템인 Deep Speech 2를 능가하며, 라벨이 부착된 훈련 데이터의 양이 두 자릿수 배로 적게 사용되었습니다.