2ヶ月前

wav2vec: 音声認識のための教師なし事前学習

Steffen Schneider; Alexei Baevski; Ronan Collobert; Michael Auli
wav2vec: 音声認識のための教師なし事前学習
要約

私たちは、生のオーディオデータの表現を学習することにより、音声認識の非教師あり事前学習について探求しています。wav2vecは大量のラベル付けされていないオーディオデータで学習され、その結果得られた表現がその後音響モデルの訓練を改善するために使用されます。私たちはノイズコントラスティブな二値分類タスクを最適化した単純な多層畳み込みニューラルネットワークを事前学習しました。WSJでの実験では、数時間の書き起こしデータのみが利用可能である場合、強力な文字ベースのlog-melフィルタバンク基準線のWER(単語誤り率)が最大36%低下しました。当アプローチはnov92テストセットで2.43%のWERを達成しており、文献に報告されている最良の文字ベースシステムであるDeep Speech 2を上回っています。これは、ラベル付き訓練データ量がDeep Speech 2と比べて2桁少ない状況下での結果です。