17日前

fairseq S2T:fairseqを用いた高速音声認識モデリング

Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino
fairseq S2T:fairseqを用いた高速音声認識モデリング
要約

fairseq S2T をご紹介します。これは、エンドツーエンド音声認識や音声からテキストへの翻訳などの音声からテキストへのモデリング(S2T)タスクを対象とした fairseq の拡張です。本ライブラリは、スケーラビリティと拡張性を重視した fairseq の設計思想を踏襲しています。データ前処理からモデル学習、オフライン(オンライン)推論に至るまで、エンドツーエンドのワークフローを提供しています。最新のRNNベース、Transformerベース、およびConformerベースのモデルを実装し、詳細な学習レシピをオープンソースとして公開しています。また、fairseq の機械翻訳モデルや言語モデルを、マルチタスク学習や転移学習の目的で、S2Tのワークフローにスムーズに統合することが可能です。fairseq S2T のドキュメントおよびサンプルコードは、以下の URL で公開されています:https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text。

fairseq S2T:fairseqを用いた高速音声認識モデリング | 最新論文 | HyperAI超神経