HyperAI

概要

現在の最先端の音声認識システムは、音響モデルおよび/または言語モデルに再帰型ニューラルネットワーク（RNN）を用いて構築され、メルフィルタバンクやセプストラム係数などの特徴量抽出パイプラインに依存しています。本論文では、生波形からの音響モデルと言語モデリングの最近の進歩を活用した、完全に畳み込みニューラルネットワーク（CNN）に基づく代替アプローチを提案します。この全畳み込みアプローチは、生波形から文字を予測するようにエンドツーエンドで訓練され、特徴量抽出ステップが完全に省かれています。外部の畳み込み言語モデルを使用して単語をデコードします。ウォール・ストリート・ジャーナルにおいて、当社のモデルは現行の最先端と同等の性能を示しました。LibriSpeechにおいては、12倍以上の音響データと著しく多くの言語データで訓練されたDeep Speech 2を含むエンドツーエンドモデルの中で最先端の性能を達成しています。

概要

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

完全畳み込み型音声認識

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

完全畳み込み型音声認識

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

完全畳み込み型音声認識

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters