
要約
本稿では、非自己回帰型自動音声認識(non-autoregressive automatic speech recognition)に焦点を当てている。提案手法は、同一のテキストトークンに属する特徴フレームをセグメント化し統合するための単モーダル集約(Unimodal Aggregation, UMA)を導入する。これにより、テキストトークンに対するより優れた特徴表現を学習することが可能となる。フレーム単位の特徴量および重みはいずれもエンコーダから得られ、単モーダル重みを用いて特徴フレームを統合した後、デコーダによってさらに処理される。学習には接続主義的時系列分類(Connectionist Temporal Classification, CTC)損失を適用する。従来のCTCと比較して、本手法はより優れた特徴表現を学習し、シーケンス長を短縮することができるため、認識誤り率と計算量の両面で低減が実現される。中国語(標準語)データセット3種類における実験結果から、UMAは自己条件付きCTC(self-conditioned CTC)を含む他の先進的な非自己回帰手法と比較して、優れたまたは同等の性能を示した。さらに、提案フレームワークに自己条件付きCTCを統合することで、性能は顕著に向上することが確認された。