17일 전

W2v-BERT: 자기지도 학습을 위한 음성 사전학습을 위한 대조 학습과 마스킹 언어 모델링의 결합

Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu
W2v-BERT: 자기지도 학습을 위한 음성 사전학습을 위한 대조 학습과 마스킹 언어 모델링의 결합
초록

자연어 처리 모델의 사전 훈련에서 마스킹 언어 모델링(Masked Language Modeling, MLM)의 성공에 영감을 받아, 우리는 자기지도 학습(speech representation learning)을 위한 MLM 탐색을 시도하는 w2v-BERT를 제안한다. w2v-BERT는 대조 학습(contrastive learning)과 MLM을 결합한 프레임워크로, 대조 학습은 입력되는 연속적인 음성 신호를 유한한 수의 구별 가능한 음성 토큰으로 디지털화하도록 모델을 훈련시키고, MLM은 이러한 디지털화된 토큰을 활용하여 맥락 기반의 음성 표현을 학습하도록 모델을 훈련시킨다. 기존의 MLM 기반 음성 사전 훈련 프레임워크인 HuBERT와 달리, 이는 반복적인 재클러스터링 및 재훈련 과정에 의존하는 반면, 또는 vq-wav2vec와 같이 별도로 훈련된 두 모듈을 연결하는 방식을 취하는 것과 달리, w2v-BERT는 대조 작업과 MLM이라는 두 가지 자기지도 학습 과제를 동시에 해결함으로써 종단간(end-to-end)으로 최적화될 수 있다. 실험 결과, Libri-Light 60k 코퍼스를 비지도 학습 데이터로 사용할 경우, LibriSpeech 벤치마크에서 현재 최고 수준의 사전 훈련 모델들과 경쟁 가능한 성능을 달성함을 확인하였다. 특히, conformer 기반 wav2vec 2.0 및 HuBERT와 같은 공개된 모델들과 비교했을 때, 테스트-클린 및 테스트-오더 서브셋에서 상대적으로 5%에서 10%의 WER(단어 오류율) 감소를 보였다. 또한 구글의 음성 검색 트래픽 데이터셋에 적용했을 때, 내부의 conformer 기반 wav2vec 2.0 모델보다 상대적으로 30% 이상 성능이 우수함을 확인하였다.

W2v-BERT: 자기지도 학습을 위한 음성 사전학습을 위한 대조 학습과 마스킹 언어 모델링의 결합 | 최신 연구 논문 | HyperAI초신경