17日前
CR-CTC:発音認識の向上を目的としたCTCにおける一貫性正則化
Zengwei Yao, Wei Kang, Xiaoyu Yang, Fangjun Kuang, Liyong Guo, Han Zhu, Zengrui Jin, Zhaoqing Li, Long Lin, Daniel Povey

要約
Connectionist Temporal Classification(CTC)は、自動音声認識(ASR)分野で広く用いられる手法であり、その簡潔さと計算効率の高さで知られている。しかし、認識性能においてはしばしば限界に直面する。本研究では、入力音声のメルスペクトログラムに対して異なる拡張(augmentation)を施した2つの視点から得られるCTC分布間の一貫性を強制する「一貫性正則化CTC(Consistency-Regularized CTC, CR-CTC)」を提案する。本手法の本質的な挙動について、以下の3つの観点から詳細な分析を行う:1)異なる拡張ビューを処理するランダムなサブモデルペア間で自己蒸留(self-distillation)が行われる;2)時間領域のマスク領域内における位置に対するマスク予測を通じて文脈表現を学習する。特に、時間マスクの割合を増加させることで、この特性が顕著になる;3)極めて鋭いピークを持つCTC分布を抑制することで、過学習を低減し、一般化能力を向上させる。LibriSpeech、Aishell-1、GigaSpeechの3つのデータセットにおいて実施した広範な実験により、本手法の有効性が確認された。CR-CTCはCTCベースの性能を顕著に向上させ、トランシデューサーやCTCと注意機構ベースのエンコーダデコーダ(CTC/AED)を組み合わせたシステムと同等の最先端性能を達成した。本研究の実装コードは、https://github.com/k2-fsa/icefall にて公開している。