HyperAIHyperAI

Command Palette

Search for a command to run...

CTCベースの音声認識における単モーダルアグリゲーション

Ying Fang Xiaofei Li

概要

本稿では、非自己回帰型自動音声認識(non-autoregressive automatic speech recognition)に焦点を当てている。提案手法は、同一のテキストトークンに属する特徴フレームをセグメント化し統合するための単モーダル集約(Unimodal Aggregation, UMA)を導入する。これにより、テキストトークンに対するより優れた特徴表現を学習することが可能となる。フレーム単位の特徴量および重みはいずれもエンコーダから得られ、単モーダル重みを用いて特徴フレームを統合した後、デコーダによってさらに処理される。学習には接続主義的時系列分類(Connectionist Temporal Classification, CTC)損失を適用する。従来のCTCと比較して、本手法はより優れた特徴表現を学習し、シーケンス長を短縮することができるため、認識誤り率と計算量の両面で低減が実現される。中国語(標準語)データセット3種類における実験結果から、UMAは自己条件付きCTC(self-conditioned CTC)を含む他の先進的な非自己回帰手法と比較して、優れたまたは同等の性能を示した。さらに、提案フレームワークに自己条件付きCTCを統合することで、性能は顕著に向上することが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CTCベースの音声認識における単モーダルアグリゲーション | 記事 | HyperAI超神経