17日前

ImportantAug:音声向けデータ拡張エージェント

Viet Anh Trinh, Hassan Salami Kavaki, Michael I Mandel
ImportantAug:音声向けデータ拡張エージェント
要約

本稿では、音声の重要領域にはノイズを加えず、重要でない領域にのみノイズを加えることで、音声分類および音声認識モデルの学習データを拡張する手法「ImportantAug」を提案する。各発話ごとの重要度は、ノイズの加え方を最大化しつつ認識性能への影響を最小化するように学習されたデータ拡張エージェントによって予測される。本手法の有効性は、Google Speech Commands(GSC)データセットバージョン2を用いて検証された。標準的なGSCテストセットにおいて、従来のノイズ拡張手法(音声全体にノイズを無差別に加える手法)と比較して、相対誤差率を23.3%低減した。また、データ拡張を行わないベースラインと比較すると、25.4%の誤差率低減を達成した。さらに、追加ノイズを含む2つのテストセットにおいても、本手法は従来のノイズ拡張法およびベースラインを上回る性能を示した。