17日前

HuBERT：隠れユニットのマスク予測による自己教師付き音声表現学習

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

要約

音声表現学習における自己教師付きアプローチは、以下の3つの固有の課題に直面している：（1）各入力発話には複数の音声単位が含まれる、（2）事前学習段階では入力音声単位の語彙（辞書）が存在しない、（3）音声単位の長さは可変的であり、明示的な分割情報が欠如している。これらの課題に対処するため、我々はBERTに類似した予測損失に対して、オフラインのクラスタリング手順を用いて整合性のあるターゲットラベルを提供する「隠れユニットBERT（HuBERT）」というアプローチを提案する。本手法の鍵となる要素は、マスクされた領域のみに予測損失を適用することであり、これによりモデルは連続的な入力に対して音声情報と言語情報の統合的なモデルを学習するよう強制される。HuBERTは、割り当てられたクラスタラベルの内在的な品質よりも、無監督クラスタリング手順の一貫性に依存している。単純な100クラスタのk-means教師モデルから出発し、クラスタリングを2回実施するだけで、LibriSpeech（960時間）およびLibri-light（6万時間）ベンチマークにおいて、10分、1時間、10時間、100時間、960時間の微調整サブセットで、wav2vec 2.0の最先端性能と同等またはそれを上回る結果を得た。10億パラメータのモデルを用いた場合、より困難なdev-otherおよびtest-other評価サブセットにおいて、それぞれ最大19%および13%の相対的な誤り率（WER）低減が達成された。