TransformerベースのASR:時間削減層の導入と自己知識蒸留を用いたファインチューニング

エンドツーエンド自動音声認識(ASR)は、従来のASRとは異なり、音声エンコーダから意味表現を学習するモジュールを備えていない。また、音声表現のフレームレートが高いため、モデルが意味表現を適切に学習できないという問題がある。そのため、音声エンコーダのフレームレートを低く抑えたモデルが、より優れた性能を発揮する。特にTransformerベースのASRでは、低フレームレート化は意味表現の学習を改善するだけでなく、学習および推論においてO(n²)の計算量を有する自己注意機構(self-attention mechanism)の計算複雑度を低減する点でも重要である。本論文では、時間軸方向の縮小層(time reduction layer)を導入したTransformerベースのASRモデルを提案する。この手法では、従来のサブサンプリング手法に加えて、Transformerエンコーダ層内部に時間軸縮小層を組み込むことで、入力特徴のフレームレートをさらに低減する。これにより、学習および推論における自己注意処理の計算コストを削減しつつ、性能の向上も実現できる。さらに、事前学習済みASRモデルに対する自己知識蒸留(self-knowledge distillation, S-KD)を用いたファインチューニング手法を導入することで、モデル性能のさらなる向上を達成した。LibriSpeechデータセットにおける実験結果から、提案手法は他のすべてのTransformerベースASRシステムを上回る性能を示した。また、言語モデル(LM)融合を適用した場合、外部データを一切用いない3000万パラメータのモデルで、TransformerベースASRモデルにおける新たな最良の単語誤り率(WER)を達成した。