
要約
シーケンスレベルの基準に基づいて訓練されたトランスデューサーモデルは、大規模な確率行列の生成により多くのメモリを必要とします。私たちは、フレームレベルの基準に基づく軽量トランスデューサーモデルを提案しました。このモデルでは、CTC強制アライメントアルゴリズムの結果を使用して各フレームのラベルを決定します。その後、エンコーダー出力は対応する時間でのデコーダー出力と結合され、トランスデューサーのようにエンコーダーが生成した各要素をデコーダーが生成した各要素に加算する必要はありません。これにより、メモリと計算量の要件が大幅に削減されます。ラベルに含まれる過剰なブランクによって引き起こされる分類の不均衡問題に対処するために、私たちはブランクと非ブランクの確率を分離し、ブランク分類器からの勾配を主ネットワークに切り詰めました。AISHELL-1データセットでの実験結果は、この手法が軽量トランスデューサーモデルにトランスデューサーと同等の性能をもたらすことを示しています。さらに、より豊富な情報を用いてブランクの確率を予測することで、トランスデューサーを超える結果を得ています。