
要約
本論文では、エンドツーエンド音声認識モデルが言語出力を予測するために動的に何フレーム処理すべきかを決定するAdaptive Computation Steps (ACS) アルゴリズムを提案します。ACSアルゴリズムを適用したモデルはエンコーダー-デコーダーフレームワークに従いますが、アテンションベースのモデルとは異なり、隣接フレーム間の相関を使用してエンコーダー側で独立してアライメントを生成します。これにより、十分な音響情報が得られ次第予測を行うことができ、オンライン環境での利用が可能となります。さらに、エンコーダー-デコーダーフレームワークのデコーディングステージに小さな変更を加え、予測が双方向コンテキストを利用できるようにしました。我々はMandarin音声データセットAIShell-1でACSアルゴリズムを検証し、オンライン環境では31.2%の文字誤り率(CER)を達成しました。これは、アテンションベースのモデルの32.4% CERと比較されます。ACSアルゴリズムの優位性を完全に示すために、オフライン実験も実施され、我々のACSモデルは18.7%のCERを達成し、アテンションベースの対応モデル(CER 22.0%)を上回りました。