17日前

CTCベースの音声認識における単モーダルアグリゲーション

Ying Fang, Xiaofei Li

要約

本稿では、非自己回帰型自動音声認識（non-autoregressive automatic speech recognition）に焦点を当てている。提案手法は、同一のテキストトークンに属する特徴フレームをセグメント化し統合するための単モーダル集約（Unimodal Aggregation, UMA）を導入する。これにより、テキストトークンに対するより優れた特徴表現を学習することが可能となる。フレーム単位の特徴量および重みはいずれもエンコーダから得られ、単モーダル重みを用いて特徴フレームを統合した後、デコーダによってさらに処理される。学習には接続主義的時系列分類（Connectionist Temporal Classification, CTC）損失を適用する。従来のCTCと比較して、本手法はより優れた特徴表現を学習し、シーケンス長を短縮することができるため、認識誤り率と計算量の両面で低減が実現される。中国語（標準語）データセット3種類における実験結果から、UMAは自己条件付きCTC（self-conditioned CTC）を含む他の先進的な非自己回帰手法と比較して、優れたまたは同等の性能を示した。さらに、提案フレームワークに自己条件付きCTCを統合することで、性能は顕著に向上することが確認された。