HyperAIHyperAI

Command Palette

Search for a command to run...

完全畳み込み型音声認識

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

概要

現在の最先端の音声認識システムは、音響モデルおよび/または言語モデルに再帰型ニューラルネットワーク(RNN)を用いて構築され、メルフィルタバンクやセプストラム係数などの特徴量抽出パイプラインに依存しています。本論文では、生波形からの音響モデルと言語モデリングの最近の進歩を活用した、完全に畳み込みニューラルネットワーク(CNN)に基づく代替アプローチを提案します。この全畳み込みアプローチは、生波形から文字を予測するようにエンドツーエンドで訓練され、特徴量抽出ステップが完全に省かれています。外部の畳み込み言語モデルを使用して単語をデコードします。ウォール・ストリート・ジャーナルにおいて、当社のモデルは現行の最先端と同等の性能を示しました。LibriSpeechにおいては、12倍以上の音響データと著しく多くの言語データで訓練されたDeep Speech 2を含むエンドツーエンドモデルの中で最先端の性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています