HyperAIHyperAI

Command Palette

Search for a command to run...

CAT:CTC-CRFに基づくASRツールキット—データ効率性と低レイテンシを実現するためのハイブリッド手法とエンドツーエンド手法の橋渡し

Keyu An Hongyu Xiang Zhijian Ou

概要

本稿では、音声認識用の新しいオープンソースツールキット「CAT(CTC-CRFベースASRツールキット)」を紹介する。CATはハイブリッド手法のデータ効率性と、エンドツーエンド(E2E)手法の簡潔さを両立しており、CTC-CRFの完全な実装および複数の英語および中国語ベンチマークに対する包括的な学習・評価スクリプトを提供している。実験の結果、CATはKaldiで最適化されたハイブリッドモデルと同等の最先端性能を達成しており、その一方ではるかにシンプルな学習パイプラインを実現している。既存の非モジュール化されたE2Eモデルと比較して、CATは規模が限られたデータセットにおいても優れた性能を発揮し、そのデータ効率性を示している。さらに、本研究では、精度の低下を伴わずにストリーミングASRを実現できる新しい手法「文脈に基づくソフトフォーリング(contextualized soft forgetting)」を提案した。本研究が提供するCAT、特にCTC-CRFベースのフレームワークおよびソフトウェアが、研究コミュニティの広範な関心を引き、さらなる検討と改善が行われることを期待する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています