2ヶ月前

SpecAugment: 自動音声認識のための単純なデータ拡張手法

Daniel S. Park; William Chan; Yu Zhang; Chung-Cheng Chiu; Barret Zoph; Ekin D. Cubuk; Quoc V. Le
SpecAugment: 自動音声認識のための単純なデータ拡張手法
要約

私たちは音声認識のための単純なデータ拡張手法であるSpecAugmentを紹介します。SpecAugmentはニューラルネットワークの特徴入力(すなわちフィルタバンク係数)に直接適用されます。データ拡張ポリシーは、特徴量の変形、周波数チャネルのブロックマスキング、および時間ステップのブロックマスキングから構成されています。私たちはListen, Attend and Spellネットワークに対してSpecAugmentを適用し、エンドツーエンドの音声認識タスクを行いました。LibriSpeech 960時間とSwichboard 300時間のタスクにおいて、最先端の性能を達成し、これまでのすべての研究を上回りました。LibriSpeechでは、言語モデルを使用せずにtest-otherで6.8%のWER(単語誤り率)を達成し、浅い融合による言語モデルを使用して5.8%のWERを達成しました。これは、以前の最先端ハイブリッドシステムが7.5%だったことを考えると優れた結果です。Switchboardに関しては、Hub5'00テストセットのSwitchboard/CallHome部分で言語モデルを使用せずに7.2%/14.6%のWERを達成し、浅い融合により6.8%/14.1%を達成しました。これは以前の最先端ハイブリッドシステムが8.3%/17.3%だったことを考慮すると著しい改善です。

SpecAugment: 自動音声認識のための単純なデータ拡張手法 | 最新論文 | HyperAI超神経