17日前
自己学習と事前学習は音声認識において相補的である
Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello, Alexis Conneau, Ronan Collobert, Gabriel Synnaeve, Michael Auli

要約
自己学習および教師なし事前学習は、ラベルなしデータを活用して音声認識システムの性能を向上させる有効な手法として注目されている。しかし、これらの手法が類似したパターンを学習するのか、あるいは効果的に組み合わせられるのかは明確でない。本論文では、擬似ラベル付けとwav2vec 2.0を用いた事前学習が、さまざまなラベル付きデータ構成において互いに補完的であることを示す。Libri-lightからわずか10分間のラベル付きデータと、LibriVoxから得た53,000時間のラベルなしデータのみを用いることで、LibriSpeechのクリーンおよびその他のテストセットにおいて、それぞれ3.0% / 5.2%の誤り率(WER)を達成した。これは、わずか1年前に960時間のラベル付きデータのみで学習された最良の既存システムと同等の性能である。一方、LibriSpeechのすべてのラベル付きデータを用いて学習した場合、誤り率は1.5% / 3.1%にまで改善された。