17日前
SPGISpeech:完全形式化エンドツーエンド音声認識向けのトランスクリプト済み金融音声5,000時間分
Patrick K. O', Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, Georg Kucsko

要約
英語の音声認識(STT)機械学習タスクにおいて、従来は音響モデルが大文字・小文字を区別しないラテン文字で学習され、必要に応じた表記規則(大文字化、句読点の挿入、非標準語の正規化など)は別途の後処理モデルによって補完されていた。このアプローチは複雑性を増加させるとともに、性能の限界を生じる。なぜなら、音響信号に含まれる意味情報は転写文には反映されていないため、多くの表記処理タスクはその情報を活用できていないからである。本研究では、ターゲットラベルとして完全に整形されたテキストを出力するエンドツーエンド型ニューラル転写という新たなSTTタスクを提案する。我々は、5,000時間分のプロフェッショナルな会計報告会議音声を収録したコーパスを用いて、Conformerベースのベースラインモデルを訓練し、CER(字誤り率)1.7を達成した。STT研究コミュニティへの貢献として、本コーパスを非営利目的での利用に限り、https://datasets.kensho.com/datasets/scribe にて無料公開する。