17日前
SpeechStew:利用可能なすべての音声認識データを単純に混合して、1つの大規模ニューラルネットワークを訓練する
William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi

要約
我々は、AMI、Broadcast News、Common Voice、LibriSpeech、Switchboard/Fisher、Tedlium、Wall Street Journal の複数の公開された音声認識データセットを組み合わせて学習された音声認識モデル「SpeechStew」を提案する。SpeechStewは、これらのデータセットを特別な重み付けやバランス調整なしに単純に混合するのみである。このアプローチにより、外部言語モデルを用いずに、さまざまなタスクにおいて最先端(SoTA)またはそれに近い性能を達成している。具体的には、AMI-IHMで9.0%のWER、Switchboardで4.7%のWER、CallHomeで8.3%のWER、WSJで1.3%のWERを達成し、強力な外部言語モデルを用いた従来の手法を大幅に上回っている。さらに、SpeechStewが強力な転移学習表現を学習できることも示した。ノイズが強くリソースが限られた音声データセットであるCHiME-6に対してSpeechStewをファインチューニングした結果、言語モデルを用いない状態で38.9%のWERを達成した。これは、言語モデルを用いた強力なHMMベースライン(38.6% WER)と比較しても、ほぼ同等の性能を示している。