17日前
音声認識における反復的擬ラベル付け
Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert

要約
最近、擬似ラベル付け(pseudo-labeling)はエンドツーエンド自動音声認識(ASR)において有望な手法として注目されている。本研究では、音声モデルの進化に伴い、未ラベルデータに対して複数回にわたる擬似ラベル付けを効率的に行う半教師付き学習アルゴリズム「反復的擬似ラベル付け(Iterative Pseudo-Labeling: IPL)」を検討する。具体的には、各反復において既存モデルをラベル付きデータおよび未ラベルデータのサブセットを用いて微調整する。IPLの主要な構成要素として、言語モデルを用いたデコーディングとデータ拡張の効果を分析した。その結果、標準的および低リソース設定の両方において、LibriSpeechテストセットで最先端の単語誤り率(Word Error Rate)を達成することを実証した。さらに、異なるコーパスで学習された言語モデルの影響を検討し、IPLが追加のテキストデータを効果的に活用できることを示した。最後に、LibriSpeechの学習用転写データと重複しない新たな大規模なドメイン内テキストコーパスを公開することで、低リソース・半教師付きASR分野の研究を促進することを目的としている。