2ヶ月前

Microsoft 2016年の対話型音声認識システム

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

要約

マイクロソフトの対話型音声認識システムについて説明します。このシステムでは、ニューラルネットワークに基づく音響モデルと言語モデルの最近の進展を組み合わせることで、スイッチボード認識タスクにおける最先端技術をさらに推進しています。機械学習のアンサンブル技術に着想を得て、システムはさまざまな畳み込みニューラルネットワーク（CNN）と再帰型ニューラルネットワーク（RNN）を使用しています。i-ベクトルモデリングとラティスフリーMMIトレーニングは、すべての音響モデルアーキテクチャに対して大幅な改善をもたらします。複数の前方および後方実行RNNLM（再帰型ニューラルネットワーク言語モデル）による言語モデル再スコアリングと単語事後確率に基づくシステム結合により、20%の性能向上が見られます。最良の単一システムはResNetアーキテクチャの音響モデルを使用し、RNNLM再スコアリングを組み合わせることでNIST 2000 スイッチボードタスクにおいて6.9%の単語誤り率を達成しました。結合されたシステムは6.2%の誤り率を達成しており、このベンチマークタスクにおける以前に報告された結果よりも優れています。