HyperAIHyperAI

Command Palette

Search for a command to run...

ImportantAug:音声向けデータ拡張エージェント

Viet Anh Trinh Hassan Salami Kavaki Michael I Mandel

概要

本稿では、音声の重要領域にはノイズを加えず、重要でない領域にのみノイズを加えることで、音声分類および音声認識モデルの学習データを拡張する手法「ImportantAug」を提案する。各発話ごとの重要度は、ノイズの加え方を最大化しつつ認識性能への影響を最小化するように学習されたデータ拡張エージェントによって予測される。本手法の有効性は、Google Speech Commands(GSC)データセットバージョン2を用いて検証された。標準的なGSCテストセットにおいて、従来のノイズ拡張手法(音声全体にノイズを無差別に加える手法)と比較して、相対誤差率を23.3%低減した。また、データ拡張を行わないベースラインと比較すると、25.4%の誤差率低減を達成した。さらに、追加ノイズを含む2つのテストセットにおいても、本手法は従来のノイズ拡張法およびベースラインを上回る性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています