HyperAIHyperAI

Command Palette

Search for a command to run...

英会話音声認識の限界について

Zoltán Tüske George Saon Brian Kingsbury

概要

我々の以前の研究では、単一ヘッドのアテンションエンコーダー-デコーダーモデルが会話音声認識において最先端の結果を達成できることを示しました。本論文では、Switchboard 300および2000の両方でさらに結果を改善しています。改良された最適化手法、話者ベクトル埋め込み、および代替的な音声表現を使用することで、Switchboard-300におけるLSTMシステムの認識エラーを相対的に4%削減しました。デコーダーモデルに対する確率比アプローチによる補正は、外部言語モデルをより効率的に統合することを可能とし、非常にシンプルなLSTMモデルを使用してHub5'00のSWBおよびCHM部分でそれぞれ5.9%および11.5%のWER(Word Error Rate)を報告しています。また、本研究では最近提案されたConformerとより高度な自己注意に基づく言語モデルについても検討しています。全体的には、ConformerはLSTMと同程度の性能を示しましたが、それらの組み合わせと改良された言語モデルでのデコードにより、Switchboard-300において新たな記録である5.0%と10.0%のWERをSWBおよびCHMで達成しました。これらの知見はSwitchboard-2000でも確認され、新しい最先端となる結果が報告され、ベンチマークの限界に実質的に到達しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
英会話音声認識の限界について | 記事 | HyperAI超神経