17日前
エンドツーエンドASR:現代のアーキテクチャを用いた教師あり学習から半教師あり学習へ
Gabriel Synnaeve, Qiantong Xu, Jacob Kahn, Tatiana Likhomanenko, Edouard Grave, Vineel Pratap, Anuroop Sriram, Vitaliy Liptchinsky, Ronan Collobert

要約
本研究では、音声認識に用いられるResNet、Time-Depth Separable ConvNet、およびTransformerモデルについて、CTCまたはSeq2Seq損失関数を用いた半教師あり学習における擬似ラベル化(pseudo-labeling)手法を検討する。標準的なLibriSpeechデータセット上で実験を行い、LibriVoxから得られる追加のラベルなし音声データを擬似ラベル化を用いて活用する。その結果、教師あり学習のみでTransformerベースの音響モデルが優れた性能を示すものの、半教師あり学習によってあらゆるアーキテクチャおよび損失関数においてモデル性能が向上し、各モデル間の性能差を大幅に縮小することが明らかになった。さらに、外部言語モデルを用いたデコードを行うエンドツーエンド音響モデルにおいて、従来の教師あり学習設定で新たな最良性能(state-of-the-art)を達成するとともに、半教師あり学習では絶対的な新たな最良性能を実現した。最後に、利用するラベルなし音声データの量の違いがモデルに与える影響を検討し、ラベルなし音声データの特性を評価するための複数の手法を提案。その結果、より多くの音声データを用いて学習された音響モデルは、外部言語モデルへの依存度が低くなることが示された。