2ヶ月前

会話音声認識における人間同等の精度の達成

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

要約

会話音声認識は、1990年代にスイッチボードコーパスが公開されて以来、音声認識の主要なタスクとして機能してきました。本論文では、広く使用されているNIST 2000テストセットにおける人的誤り率を測定し、最新の自動システムが人的性能と同等になったことを示しています。データのスイッチボード部分において、新しく知り合った人々が割り当てられたトピックについて議論する場合のプロの文字起こし者の誤り率は5.9%であり、友人や家族が自由な会話を交わすコールホーム部分では11.3%です。両ケースにおいて、当社の自動システムは新たな最先端を確立し、人的基準を超えて、それぞれ5.8%と11.0%の誤り率を達成しました。当社システムの性能向上の鍵は、さまざまな畳み込み型およびLSTM音響モデルアーキテクチャを使用することに加え、新しい空間平滑化手法とラティスフリーMMI音響学習、複数の再帰型ニューラルネットワーク言語モデルアプローチ、そしてシステム統合の一貫した使用にあります。