HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンド音声認識における適応的計算ステップ

Mohan Li Min Liu Hattori Masanori

概要

本論文では、エンドツーエンド音声認識モデルが言語出力を予測するために動的に何フレーム処理すべきかを決定するAdaptive Computation Steps (ACS) アルゴリズムを提案します。ACSアルゴリズムを適用したモデルはエンコーダー-デコーダーフレームワークに従いますが、アテンションベースのモデルとは異なり、隣接フレーム間の相関を使用してエンコーダー側で独立してアライメントを生成します。これにより、十分な音響情報が得られ次第予測を行うことができ、オンライン環境での利用が可能となります。さらに、エンコーダー-デコーダーフレームワークのデコーディングステージに小さな変更を加え、予測が双方向コンテキストを利用できるようにしました。我々はMandarin音声データセットAIShell-1でACSアルゴリズムを検証し、オンライン環境では31.2%の文字誤り率(CER)を達成しました。これは、アテンションベースのモデルの32.4% CERと比較されます。ACSアルゴリズムの優位性を完全に示すために、オフライン実験も実施され、我々のACSモデルは18.7%のCERを達成し、アテンションベースの対応モデル(CER 22.0%)を上回りました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エンドツーエンド音声認識における適応的計算ステップ | 記事 | HyperAI超神経