7ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

概要

私たちは音声認識のための単純なデータ拡張手法であるSpecAugmentを紹介します。SpecAugmentはニューラルネットワークの特徴入力（すなわちフィルタバンク係数）に直接適用されます。データ拡張ポリシーは、特徴量の変形、周波数チャネルのブロックマスキング、および時間ステップのブロックマスキングから構成されています。私たちはListen, Attend and Spellネットワークに対してSpecAugmentを適用し、エンドツーエンドの音声認識タスクを行いました。LibriSpeech 960時間とSwichboard 300時間のタスクにおいて、最先端の性能を達成し、これまでのすべての研究を上回りました。LibriSpeechでは、言語モデルを使用せずにtest-otherで6.8%のWER（単語誤り率）を達成し、浅い融合による言語モデルを使用して5.8%のWERを達成しました。これは、以前の最先端ハイブリッドシステムが7.5%だったことを考えると優れた結果です。Switchboardに関しては、Hub5'00テストセットのSwitchboard/CallHome部分で言語モデルを使用せずに7.2%/14.6%のWERを達成し、浅い融合により6.8%/14.1%を達成しました。これは以前の最先端ハイブリッドシステムが8.3%/17.3%だったことを考慮すると著しい改善です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

概要

私たちは音声認識のための単純なデータ拡張手法であるSpecAugmentを紹介します。SpecAugmentはニューラルネットワークの特徴入力（すなわちフィルタバンク係数）に直接適用されます。データ拡張ポリシーは、特徴量の変形、周波数チャネルのブロックマスキング、および時間ステップのブロックマスキングから構成されています。私たちはListen, Attend and Spellネットワークに対してSpecAugmentを適用し、エンドツーエンドの音声認識タスクを行いました。LibriSpeech 960時間とSwichboard 300時間のタスクにおいて、最先端の性能を達成し、これまでのすべての研究を上回りました。LibriSpeechでは、言語モデルを使用せずにtest-otherで6.8%のWER（単語誤り率）を達成し、浅い融合による言語モデルを使用して5.8%のWERを達成しました。これは、以前の最先端ハイブリッドシステムが7.5%だったことを考えると優れた結果です。Switchboardに関しては、Hub5'00テストセットのSwitchboard/CallHome部分で言語モデルを使用せずに7.2%/14.6%のWERを達成し、浅い融合により6.8%/14.1%を達成しました。これは以前の最先端ハイブリッドシステムが8.3%/17.3%だったことを考慮すると著しい改善です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています