
要約
我々は、英語の会話型電話音声認識(LVCSR)システムの単語誤り率を、Hub5 2000評価テストセットのSwitchboardサブセットにおいて記録的な6.6%に低下させた一連の音響モデルおよび言語モデル技術について説明します。音響モデルに関しては、以下の3つの強力なモデルのスコア融合を使用しています:マックスアウト活性化を持つ再帰ネットワーク、3x3カーネルを使用する非常に深い畳み込みネットワーク、およびFMLLRおよびi-ベクトル特徴量を処理する双方向長期短期記憶(LSTM)ネットワーク。言語モデルに関しては、更新されたモデル「M」および階層的ニューラルネットワーク言語モデル(LM)を使用しています。