17日前
G-Augment:ASRにおけるデータ拡張方策のメタ構造探索
Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park

要約
データ拡張は、自動音声認識(ASR)の学習に対して堅牢性を提供するために広く用いられる技術である。しかし、ASRの学習プロセスの多くが自動化され、より「エンドツーエンド」化している一方で、データ拡張方針(どの拡張関数を使用するか、およびどのように適用するか)は依然として手作業で設計されている。本研究では、拡張空間を有向非巡回グラフ(DAG)として定義し、この空間上で探索することで拡張方針自体を最適化する手法であるGraph-Augmentを提案する。同じ計算リソースを用いた場合、G-Augmentによって得られた方針は、CHiME-6およびAMIにおけるファインチューニングタスクにおいて、ランダムサーチによって得られたSpecAugment方針よりも優れた性能を発揮することを示した。また、G-AugmentはCHiME-6評価セットにおいて、30.7%のWERという新たな最先端のASR性能を達成した。さらに、初期学習(warm-start)から初期化なし学習(cold-start)へ、およびモデルサイズの変更にわたる転移性能においても、ランダムサーチによるSpecAugment方針よりもG-Augment方針が優れた一般化能力を示すことを実証した。