17日前
WavLM:フルスタック音声処理向けの大規模自己教師付き事前学習
Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei

要約
自己教師学習(Self-supervised learning, SSL)は音声認識において大きな成功を収めており、他の音声処理タスクへの応用についてはまだ限られた研究しか行われていない。音声信号には話者の識別情報、副言語的特徴、発話内容など、多様な情報が含まれており、すべての音声タスクに通用する普遍的な表現を学習することは困難である。この課題に対処するため、我々は全範囲の下流音声処理タスクに対応できる新しい事前学習モデル「WavLM」を提案する。WavLMは事前学習段階でマスクされた音声の予測とノイズ除去を統合的に学習する。このアプローチにより、マスク音声予測によって音声コンテンツのモデリング能力を維持しつつ、ノイズ除去によって非音声認識(non-ASR)タスクへの適用可能性も向上する。さらに、Transformer構造にゲート付き相対位置バイアス(gated relative position bias)を導入することで、入力音声の順序構造をより正確に捉える能力を強化している。また、学習データセットの規模を6万時間から9万4千時間まで拡大した。WavLM LargeはSUPERBベンチマークにおいて最先端の性能を達成し、代表的なベンチマーク上でさまざまな音声処理タスクにおいて顕著な性能向上をもたらした。コードおよび事前学習済みモデルは、https://aka.ms/wavlm にて公開されている。