17일 전
WavLM: 전체 스택 음성 처리를 위한 대규모 자기지도 학습 사전 훈련
Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei

초록
자기지도 학습(Self-supervised learning, SSL)은 음성 인식 분야에서 큰 성과를 거두었으나, 다른 음성 처리 과제에 대한 탐색은 여전히 제한적이다. 음성 신호는 화자 정체성, 부언적 특성, 발화 내용 등 다양한 정보를 포함하고 있어, 모든 음성 과제에 통용 가능한 표현을 학습하는 것은 매우 도전적인 과제이다. 이 문제를 해결하기 위해 우리는 전체 스택의 하류 음성 처리 과제를 해결할 수 있는 새로운 사전 학습 모델인 WavLM을 제안한다. WavLM은 사전 학습 과정에서 마스킹된 음성 예측과 노이즈 제거를 공동으로 학습한다. 이를 통해 WavLM은 마스킹된 음성 예측을 통해 음성 내용 모델링 능력을 유지할 뿐만 아니라, 음성 노이즈 제거를 통해 음성 인식 외의 과제에 대한 잠재적 성능 향상을 달성한다. 또한, WavLM은 Transformer 구조에 게이트형 상대적 위치 편향(gated relative position bias)을 도입하여 입력 음성의 시퀀스 순서 정보를 보다 효과적으로 포착한다. 더불어, 학습 데이터셋의 규모를 6만 시간에서 9만 4천 시간으로 확장하였다. WavLM Large는 SUPERB 벤치마크에서 최신 기술(SOTA) 성능을 달성하며, 다양한 음성 처리 과제에 대해 대표적인 벤치마크에서 상당한 성능 향상을 보였다. 코드와 사전 학습 모델은 https://aka.ms/wavlm에서 공개되어 있다.