17日前

wav2vec 2.0:音声表現の自己教師学習のためのフレームワーク

Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli
wav2vec 2.0:音声表現の自己教師学習のためのフレームワーク
要約

本研究では、音声データのみから強力な表現を学習し、その後転写済み音声データを用いたファインチューニングを行うことで、従来の最良の半教師付き手法を上回ることを初めて示した。この手法であるwav2vec 2.0は、潜在空間における音声入力をマスクし、潜在表現の量子化に基づく対照的タスクを解く。ラベル付きデータをすべて使用したLibrispeechの実験では、クリーン・テストセットおよびその他のテストセットでそれぞれ1.8/3.3のWER(誤り率)を達成した。ラベル付きデータを1時間にまで削減した場合でも、wav2vec 2.0は100時間分のデータを用いた従来の最先端手法を上回りながら、ラベル付きデータ量を100分の1にまで削減した。さらに、ラベル付きデータをわずか10分にまで絞り、未ラベルデータとして53,000時間のデータを事前学習に用いても、4.8/8.2のWERを達成した。これにより、ラベル付きデータが限られた条件下でも音声認識が実現可能であることが示された。