17日前

ベトナム語のエンドツーエンド音声認識におけるwav2vec 2.0の利用

{Thai Binh Nguyen}
要約

当モデルは、13,000時間分のベトナム語YouTube音声データ(ラベルなしデータ)を用いて事前学習され、16kHzサンプリングされた音声データに対して、VLSP ASRデータセットの250時間分のラベル付きデータを用いて微調整されています。事前学習に用いたモデルアーキテクチャはwav2vec2です。微調整フェーズでは、wav2vec2モデルを、シーケンス対シーケンス問題の学習に用いられる接続主義的時系列分類(Connectionist Temporal Classification: CTC)アルゴリズムを用いて微調整しています。CTCは、主に音声認識および筆跡認識の分野で用いられる手法です。Vivosデータセットにおける評価では、ワード誤り率(WER)として6.15を達成しました。

ベトナム語のエンドツーエンド音声認識におけるwav2vec 2.0の利用 | 最新論文 | HyperAI超神経