4ヶ月前
多言語深層畳み込みニューラルネットワークを用いた大規模音声認識
Tom Sercu; Christian Puhrsch; Brian Kingsbury; Yann LeCun

要約
畳み込みニューラルネットワーク(CNNs)は、現在の最先端の大語彙連続音声認識(LVCSR)システムの標準的な構成要素となっています。しかし、LVCSRにおけるCNNsは、他の分野で深層ニューラルネットワークが優れた性能を発揮している最近の進歩に追いついていません。本論文では、LVCSR用のCNNsのアーキテクチャに関するいくつかの改良を提案します。まず、最大14つの重み層を持つ非常に深い畳み込みネットワークアーキテクチャを導入します。これはVGG Imagenet 2014アーキテクチャに着想を得たもので、各プーリング層の前に複数の畳み込み層があり、小さな3x3カーネルを使用しています。次に、複数言語対応のCNNsを導入し、複数の独立したレイヤーを使用します。最後に、計算コストをほとんど増やさずにより多くのコンテキストを利用することを目指した多スケール入力特徴量を導入します。これらの改善点についてまず低リソース音声認識タスクであるBabelタスクで評価を行い、6つの異なる言語の組合せデータでCNNを学習させることによりベースラインPLP DNNに対して絶対値で5.77%のWER(単語誤り率)改善を達成しました。その後、Hub5'00ベンチマーク(SWB-1トレーニングデータ262時間を使用)において非常に深いCNNsを評価し、クロスエントロピー学習後11.8%の単語誤り率を達成しました。これはこれまでに公表された最良のCNN結果に対して1.4%(相対的に10.6%)のWER改善となります。