2ヶ月前

大規模語彙音声認識のためのDNN音響モデルの構築

Andrew L. Maas; Peng Qi; Ziang Xie; Awni Y. Hannun; Christopher T. Lengerich; Daniel Jurafsky; Andrew Y. Ng
大規模語彙音声認識のためのDNN音響モデルの構築
要約

深層ニューラルネットワーク(DNN)は現在、最先端の音声認識システムの中心的な構成要素となっています。ニューラルネットワークの音響モデルを構築する際には、ネットワークアーキテクチャ、サイズ、および学習損失関数など、いくつかの設計決定が必要です。本論文では、DNN音響モデル設計においてどの側面が音声認識システムの性能に最も重要であるかについて実証的に調査を行います。DNN分類器の性能と最終的な音声認識器の単語誤り率を報告し、タスクパフォーマンスに影響を与える要因を定量的に評価するために複数の指標を使用してDNNを比較します。最初の一連の実験では、約300時間分の会話電話音声を含む標準的なSwitchboardベンチマークコーパスを使用しました。標準的なDNNと畳み込みネットワークを比較し、音響モデリングに局所接続された未結合ニューラルネットワーク(locally-connected, untied neural networks)を使用した最初の実験結果を提示します。さらに、SwitchboardコーパスとFisherコーパスを組み合わせて2,100時間分の訓練データを持つコーパスでシステムを構築しました。この大規模なコーパスにより、通常の音声認識システムで使用されるものよりも最大10倍以上のパラメータを持つ大規模なDNNモデルのパフォーマンスをより詳細に検討することが可能となりました。本研究結果は、相対的に単純なDNNアーキテクチャと最適化手法でも強力な結果が得られることを示唆しています。これらの知見は過去の研究と共に、最大尤度学習によるハイブリッド音声認識システム構築における一連のベストプラクティスを確立するのに役立ちます。また、DNN最適化に関する実験は、差別的損失関数を使用した音声タスク向けDNN訓練の一例として機能し、一般的なDNN分類器訓練にも適用されます。

大規模語彙音声認識のためのDNN音響モデルの構築 | 最新論文 | HyperAI超神経