HyperAIHyperAI

Command Palette

Search for a command to run...

WHAM!:騒音環境への音声分離の拡張

Gordon Wichern¹, Joe Antognini², Michael Flynn², Licheng Richard Zhu², Emmett McQuinn², Dwight Crow², Ethan Manilow¹, Jonathan Le Roux¹

概要

最近の研究では、単一のオーディオチャネルから複数の重なる話者の音声信号を分離する技術が進歩し、カクテルパーティー問題の解決に一歩近づいています。しかし、この分野の多くの研究は制約のある問題設定を使用しており、話者がほぼ完全に重なる場合や人工的に低いサンプリングレートで、外部からの背景ノイズがない状況での性能比較を行っています。本論文では、より現実的かつ挑戦的なシナリオへと研究を推進することを目指しています。そのために、wsj0-2mixデータセットから2人の話者混合音声と実際の環境ノイズサンプルを組み合わせたWSJ0 Hipster Ambient Mixtures (WHAM!) データセットを作成しました。サンプルはサンフランシスコ湾岸地域のカフェ、レストラン、バーで収集され、公開されています。我々はさまざまな音声分離アーキテクチャと目的関数をベンチマーク評価し、それらがノイズに対してどれほど堅牢であるかを評価しました。ノイズにより分離性能が低下しますが、ほとんどの手法においてノイジーシグナルに対する大幅な改善が観察されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
WHAM!:騒音環境への音声分離の拡張 | 記事 | HyperAI超神経