2ヶ月前

人間と機械による英語会話電話音声認識

George Saon; Gakuto Kurata; Tom Sercu; Kartik Audhkhasi; Samuel Thomas; Dimitrios Dimitriadis; Xiaodong Cui; Bhuvana Ramabhadran; Michael Picheny; Lynn-Li Lim; Bergul Roomi; Phil Hall
人間と機械による英語会話電話音声認識
要約

人間同士のコミュニケーションの音声認識は、最も困難なタスクの一つです。最近数年間に深層学習における進歩により、代表的なスイッチボード会話コーパスでの音声認識性能が大幅に向上しました。数年前には14%だった単語誤り率(WER)が8.0%に下がり、その後6.6%、そして最近では5.8%となり、現在では人間の性能に匹敵する範囲まで低下したとされています。これにより二つの問題が提起されます。第一に、人間の性能とは何か、第二に、音声認識の誤り率をどれだけさらに低下させることができるのかです。マイクロソフト社の最近の論文では、すでに人間の性能を達成していると主張しています。この主張を検証するために、我々は二つの会話タスクで独立した人間の性能測定を行い、以前報告されたものよりも人間の性能は著しく優れている可能性があることを発見しました。これによりコミュニティにはさらに高い目標が設定されることになります。また、我々自身の取り組みについても報告します。スイッチボード/コールホームサブセットにおけるHub5 2000評価において、我々の英語会話電話LVCSRシステムの単語誤り率を5.5%/10.3%まで低下させる一連の音響モデルおよび言語モデル技術を開発しました。これは少なくとも本論文執筆時点では新しいパフォーマンスマイルストーンであり(ただし、我々が測定した人間の性能にはまだ及ばない)、重要な進展と言えます。音響モデルに関しては、三つのモデルのスコア融合を使用しています:一つ目は複数特徴量入力を持つLSTM(Long Short-Term Memory)、二つ目は話者対抗的多タスク学習で訓練されたLSTM、三つ目は25層からなる時間遅延畳み込みを用いた残差ネットワーク(ResNet)です。言語モデルに関しては、単語LSTMと文字LSTMを使用し、さらに畳み込みWaveNetスタイルの言語モデルも採用しています。

人間と機械による英語会話電話音声認識 | 最新論文 | HyperAI超神経