2ヶ月前
WHAM!:騒音環境への音声分離の拡張
Gordon Wichern; Joe Antognini; Michael Flynn; Licheng Richard Zhu; Emmett McQuinn; Dwight Crow; Ethan Manilow; Jonathan Le Roux

要約
最近の研究では、単一のオーディオチャネルから複数の重なる話者の音声信号を分離する技術が進歩し、カクテルパーティー問題の解決に一歩近づいています。しかし、この分野の多くの研究は制約のある問題設定を使用しており、話者がほぼ完全に重なる場合や人工的に低いサンプリングレートで、外部からの背景ノイズがない状況での性能比較を行っています。本論文では、より現実的かつ挑戦的なシナリオへと研究を推進することを目指しています。そのために、wsj0-2mixデータセットから2人の話者混合音声と実際の環境ノイズサンプルを組み合わせたWSJ0 Hipster Ambient Mixtures (WHAM!) データセットを作成しました。サンプルはサンフランシスコ湾岸地域のカフェ、レストラン、バーで収集され、公開されています。我々はさまざまな音声分離アーキテクチャと目的関数をベンチマーク評価し、それらがノイズに対してどれほど堅牢であるかを評価しました。ノイズにより分離性能が低下しますが、ほとんどの手法においてノイジーシグナルに対する大幅な改善が観察されました。