HyperAIHyperAI

Command Palette

Search for a command to run...

SpecAugment: 自動音声認識のための単純なデータ拡張手法

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

概要

私たちは音声認識のための単純なデータ拡張手法であるSpecAugmentを紹介します。SpecAugmentはニューラルネットワークの特徴入力(すなわちフィルタバンク係数)に直接適用されます。データ拡張ポリシーは、特徴量の変形、周波数チャネルのブロックマスキング、および時間ステップのブロックマスキングから構成されています。私たちはListen, Attend and Spellネットワークに対してSpecAugmentを適用し、エンドツーエンドの音声認識タスクを行いました。LibriSpeech 960時間とSwichboard 300時間のタスクにおいて、最先端の性能を達成し、これまでのすべての研究を上回りました。LibriSpeechでは、言語モデルを使用せずにtest-otherで6.8%のWER(単語誤り率)を達成し、浅い融合による言語モデルを使用して5.8%のWERを達成しました。これは、以前の最先端ハイブリッドシステムが7.5%だったことを考えると優れた結果です。Switchboardに関しては、Hub5'00テストセットのSwitchboard/CallHome部分で言語モデルを使用せずに7.2%/14.6%のWERを達成し、浅い融合により6.8%/14.1%を達成しました。これは以前の最先端ハイブリッドシステムが8.3%/17.3%だったことを考慮すると著しい改善です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています