HyperAIHyperAI

Command Palette

Search for a command to run...

HuBERT:隠れユニットのマスク予測による自己教師付き音声表現学習

Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdelrahman Mohamed

概要

音声表現学習における自己教師付きアプローチは、以下の3つの固有の課題に直面している:(1)各入力発話には複数の音声単位が含まれる、(2)事前学習段階では入力音声単位の語彙(辞書)が存在しない、(3)音声単位の長さは可変的であり、明示的な分割情報が欠如している。これらの課題に対処するため、我々はBERTに類似した予測損失に対して、オフラインのクラスタリング手順を用いて整合性のあるターゲットラベルを提供する「隠れユニットBERT(HuBERT)」というアプローチを提案する。本手法の鍵となる要素は、マスクされた領域のみに予測損失を適用することであり、これによりモデルは連続的な入力に対して音声情報と言語情報の統合的なモデルを学習するよう強制される。HuBERTは、割り当てられたクラスタラベルの内在的な品質よりも、無監督クラスタリング手順の一貫性に依存している。単純な100クラスタのk-means教師モデルから出発し、クラスタリングを2回実施するだけで、LibriSpeech(960時間)およびLibri-light(6万時間)ベンチマークにおいて、10分、1時間、10時間、100時間、960時間の微調整サブセットで、wav2vec 2.0の最先端性能と同等またはそれを上回る結果を得た。10億パラメータのモデルを用いた場合、より困難なdev-otherおよびtest-other評価サブセットにおいて、それぞれ最大19%および13%の相対的な誤り率(WER)低減が達成された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HuBERT:隠れユニットのマスク予測による自己教師付き音声表現学習 | 記事 | HyperAI超神経