6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Gary Wang Ekin D.Cubuk Andrew Rosenberg Shuyang Cheng Ron J. Weiss Bhuvana Ramabhadran Pedro J. Moreno Quoc V. Le Daniel S. Park

概要

データ拡張は、自動音声認識（ASR）の学習に対して堅牢性を提供するために広く用いられる技術である。しかし、ASRの学習プロセスの多くが自動化され、より「エンドツーエンド」化している一方で、データ拡張方針（どの拡張関数を使用するか、およびどのように適用するか）は依然として手作業で設計されている。本研究では、拡張空間を有向非巡回グラフ（DAG）として定義し、この空間上で探索することで拡張方針自体を最適化する手法であるGraph-Augmentを提案する。同じ計算リソースを用いた場合、G-Augmentによって得られた方針は、CHiME-6およびAMIにおけるファインチューニングタスクにおいて、ランダムサーチによって得られたSpecAugment方針よりも優れた性能を発揮することを示した。また、G-AugmentはCHiME-6評価セットにおいて、30.7％のWERという新たな最先端のASR性能を達成した。さらに、初期学習（warm-start）から初期化なし学習（cold-start）へ、およびモデルサイズの変更にわたる転移性能においても、ランダムサーチによるSpecAugment方針よりもG-Augment方針が優れた一般化能力を示すことを実証した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Gary Wang Ekin D.Cubuk Andrew Rosenberg Shuyang Cheng Ron J. Weiss Bhuvana Ramabhadran Pedro J. Moreno Quoc V. Le Daniel S. Park

概要

データ拡張は、自動音声認識（ASR）の学習に対して堅牢性を提供するために広く用いられる技術である。しかし、ASRの学習プロセスの多くが自動化され、より「エンドツーエンド」化している一方で、データ拡張方針（どの拡張関数を使用するか、およびどのように適用するか）は依然として手作業で設計されている。本研究では、拡張空間を有向非巡回グラフ（DAG）として定義し、この空間上で探索することで拡張方針自体を最適化する手法であるGraph-Augmentを提案する。同じ計算リソースを用いた場合、G-Augmentによって得られた方針は、CHiME-6およびAMIにおけるファインチューニングタスクにおいて、ランダムサーチによって得られたSpecAugment方針よりも優れた性能を発揮することを示した。また、G-AugmentはCHiME-6評価セットにおいて、30.7％のWERという新たな最先端のASR性能を達成した。さらに、初期学習（warm-start）から初期化なし学習（cold-start）へ、およびモデルサイズの変更にわたる転移性能においても、ランダムサーチによるSpecAugment方針よりもG-Augment方針が優れた一般化能力を示すことを実証した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています