17日前

CAT:CTC-CRFに基づくASRツールキット—データ効率性と低レイテンシを実現するためのハイブリッド手法とエンドツーエンド手法の橋渡し

Keyu An, Hongyu Xiang, Zhijian Ou
CAT:CTC-CRFに基づくASRツールキット—データ効率性と低レイテンシを実現するためのハイブリッド手法とエンドツーエンド手法の橋渡し
要約

本稿では、音声認識用の新しいオープンソースツールキット「CAT(CTC-CRFベースASRツールキット)」を紹介する。CATはハイブリッド手法のデータ効率性と、エンドツーエンド(E2E)手法の簡潔さを両立しており、CTC-CRFの完全な実装および複数の英語および中国語ベンチマークに対する包括的な学習・評価スクリプトを提供している。実験の結果、CATはKaldiで最適化されたハイブリッドモデルと同等の最先端性能を達成しており、その一方ではるかにシンプルな学習パイプラインを実現している。既存の非モジュール化されたE2Eモデルと比較して、CATは規模が限られたデータセットにおいても優れた性能を発揮し、そのデータ効率性を示している。さらに、本研究では、精度の低下を伴わずにストリーミングASRを実現できる新しい手法「文脈に基づくソフトフォーリング(contextualized soft forgetting)」を提案した。本研究が提供するCAT、特にCTC-CRFベースのフレームワークおよびソフトウェアが、研究コミュニティの広範な関心を引き、さらなる検討と改善が行われることを期待する。