17日前

ワードピースを用いた高速・簡潔・高精度なハイブリッドASRシステム

Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig
ワードピースを用いた高速・簡潔・高精度なハイブリッドASRシステム
要約

本研究では、広く用いられているLibriSpeechベンチマーク上で、Transformerベースの文脈依存型接続主義時系列分類(CTC)システムが最先端の性能を達成することを示す。次に、単語ピース(wordpieces)をモデリング単位としてCTC学習を組み合わせることで、従来のフレームベースの交差エントロピー学習に比べ、すべてのGMMブートストラップ、意思決定木構築、強制アライメントといった工程を排除することで、工学的パイプラインを大幅に簡素化できることが明らかになった。同時に、非常に競争力のある単語誤り率(WER)を達成することが可能である。さらに、単語ピースをモデリング単位として用いることで、精度を損なわずに大きなストライド(stride)を採用できるため、実行時の効率性が顕著に向上する。これらの成果は、内部のVideoASRデータセット2種類(ドイツ語:英語と同様に融合語の性質を持つ言語、およびトルコ語:接続語の性質を持つ言語)においても確認された。

ワードピースを用いた高速・簡潔・高精度なハイブリッドASRシステム | 最新論文 | HyperAI超神経