2ヶ月前
完全畳み込み型音声認識
Neil Zeghidour; Qiantong Xu; Vitaliy Liptchinsky; Nicolas Usunier; Gabriel Synnaeve; Ronan Collobert

要約
現在の最先端の音声認識システムは、音響モデルおよび/または言語モデルに再帰型ニューラルネットワーク(RNN)を用いて構築され、メルフィルタバンクやセプストラム係数などの特徴量抽出パイプラインに依存しています。本論文では、生波形からの音響モデルと言語モデリングの最近の進歩を活用した、完全に畳み込みニューラルネットワーク(CNN)に基づく代替アプローチを提案します。この全畳み込みアプローチは、生波形から文字を予測するようにエンドツーエンドで訓練され、特徴量抽出ステップが完全に省かれています。外部の畳み込み言語モデルを使用して単語をデコードします。ウォール・ストリート・ジャーナルにおいて、当社のモデルは現行の最先端と同等の性能を示しました。LibriSpeechにおいては、12倍以上の音響データと著しく多くの言語データで訓練されたDeep Speech 2を含むエンドツーエンドモデルの中で最先端の性能を達成しています。