HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec: 音声認識のための教師なし事前学習

Steffen Schneider Alexei Baevski Ronan Collobert Michael Auli

概要

私たちは、生のオーディオデータの表現を学習することにより、音声認識の非教師あり事前学習について探求しています。wav2vecは大量のラベル付けされていないオーディオデータで学習され、その結果得られた表現がその後音響モデルの訓練を改善するために使用されます。私たちはノイズコントラスティブな二値分類タスクを最適化した単純な多層畳み込みニューラルネットワークを事前学習しました。WSJでの実験では、数時間の書き起こしデータのみが利用可能である場合、強力な文字ベースのlog-melフィルタバンク基準線のWER(単語誤り率)が最大36%低下しました。当アプローチはnov92テストセットで2.43%のWERを達成しており、文献に報告されている最良の文字ベースシステムであるDeep Speech 2を上回っています。これは、ラベル付き訓練データ量がDeep Speech 2と比べて2桁少ない状況下での結果です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています