17日前
FunASR:基礎的なエンドツーエンド音声認識ツールキット
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang

要約
本論文では、学術研究と産業応用の間のギャップを埋めるために設計されたオープンソース音声認識ツールキット「FunASR」を紹介する。FunASRは大規模な産業用コーパスで学習されたモデルを提供するとともに、実際のアプリケーションへのデプロイを可能にする。同ツールキットの主力モデルであるParaformerは、60,000時間にのぼる手動ラベル付けされた中国語音声認識データセットを用いて学習された、非自己回帰型のエンドツーエンド音声認識モデルである。Paraformerの性能を向上させるために、標準的なParaformerのバックボーンにタイムスタンプ予測機能およびホットワードカスタマイズ機能を追加した。さらに、モデルのデプロイを容易にするために、産業用コーパスで学習されたフィードフォワード順序記憶ネットワーク(FSMN-VAD)に基づく音声活動検出モデルと、制御可能時遅延Transformer(CT-Transformer)に基づくテキスト後処理用句読点補完モデルをオープンソース化した。これらの機能モジュールは、高精度な長時間音声認識サービスの構築に堅固な基盤を提供する。オープンデータセットで学習された他のモデルと比較して、Paraformerは優れた性能を示している。