HyperAIHyperAI

Command Palette

Search for a command to run...

SPGISpeech:完全形式化エンドツーエンド音声認識向けのトランスクリプト済み金融音声5,000時間分

概要

英語の音声認識(STT)機械学習タスクにおいて、従来は音響モデルが大文字・小文字を区別しないラテン文字で学習され、必要に応じた表記規則(大文字化、句読点の挿入、非標準語の正規化など)は別途の後処理モデルによって補完されていた。このアプローチは複雑性を増加させるとともに、性能の限界を生じる。なぜなら、音響信号に含まれる意味情報は転写文には反映されていないため、多くの表記処理タスクはその情報を活用できていないからである。本研究では、ターゲットラベルとして完全に整形されたテキストを出力するエンドツーエンド型ニューラル転写という新たなSTTタスクを提案する。我々は、5,000時間分のプロフェッショナルな会計報告会議音声を収録したコーパスを用いて、Conformerベースのベースラインモデルを訓練し、CER(字誤り率)1.7を達成した。STT研究コミュニティへの貢献として、本コーパスを非営利目的での利用に限り、https://datasets.kensho.com/datasets/scribe にて無料公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています