6ヶ月前

概要

本研究では、wav2vecスタイルの自己教師ありコンテキスト予測タスクを通じて音声セグメントの離散表現を学習する手法であるvq-wav2vecを提案する。このアルゴリズムは、密度関数表現を量子化するために、Gumbel-Softmaxまたはオンラインk-meansクラスタリングを用いる。離散化により、離散入力を必要とする自然言語処理（NLP）分野の手法を直接適用可能となる。実験の結果、BERT事前学習がTIMIT音声分類およびWSJ音声認識において、新たな最良性能を達成した。

ソースPDF