17日前

vq-wav2vec:離散音声表現の自己教師学習

Alexei Baevski, Steffen Schneider, Michael Auli
vq-wav2vec:離散音声表現の自己教師学習
要約

本研究では、wav2vecスタイルの自己教師ありコンテキスト予測タスクを通じて音声セグメントの離散表現を学習する手法であるvq-wav2vecを提案する。このアルゴリズムは、密度関数表現を量子化するために、Gumbel-Softmaxまたはオンラインk-meansクラスタリングを用いる。離散化により、離散入力を必要とする自然言語処理(NLP)分野の手法を直接適用可能となる。実験の結果、BERT事前学習がTIMIT音声分類およびWSJ音声認識において、新たな最良性能を達成した。