17日前

W2v-BERT:対照学習とマスク言語モデル化を統合した自己教師付き音声事前学習

Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu
W2v-BERT:対照学習とマスク言語モデル化を統合した自己教師付き音声事前学習
要約

自然言語処理モデルの事前学習においてマスク言語モデル(MLM)が成功を収めたことに触発され、本研究では自己教師付き音声表現学習のためのMLMを活用する「w2v-BERT」を提案する。w2v-BERTは、対比学習(contrastive learning)とMLMを統合したフレームワークであり、前者は入力される連続的な音声信号を有限個の判別性の高い音声トークンに離散化するようにモデルを学習させ、後者はその離散化されたトークンを用いてマスク予測タスクを解くことで文脈依存的な音声表現を学習する。既存のMLMに基づく音声事前学習フレームワーク(例:HuBERTやvq-wav2vec)と異なり、HuBERTは反復的な再クラスタリングと再訓練プロセスに依存する一方、vq-wav2vecは別々に学習されたモジュールを連結する方式であるのに対し、w2v-BERTは対比学習タスクとMLMタスクを同時に解くことで、エンド・トゥ・エンドの最適化が可能である。実験の結果、Libri-Light 60kコーパスを無教師データとして用いた場合、LibriSpeechベンチマークにおいて現在の最先端モデルと比較して競争力ある性能を達成した。特に、コンフォーマー型wav2vec 2.0やHuBERTなどの公表済みモデルと比較して、test-cleanおよびtest-otherサブセットにおいて5%~10%の相対的な誤字率(WER)低減を示した。さらに、Googleの音声検索トラフィックデータセットへの適用においても、内部で開発したコンフォーマー型wav2vec 2.0を30%以上上回る性能を発揮した。

W2v-BERT:対照学習とマスク言語モデル化を統合した自己教師付き音声事前学習 | 最新論文 | HyperAI超神経