2ヶ月前

Wave-U-Net: エンドツーエンド音源分離のための多スケールニューラルネットワーク

Daniel Stoller; Sebastian Ewert; Simon Dixon
Wave-U-Net: エンドツーエンド音源分離のための多スケールニューラルネットワーク
要約

音源分離のモデルは通常、位相情報を無視する振幅スペクトルを対象としており、これによりスペクトルフロントエンドのハイパーパラメータに分離性能が依存します。そこで、本研究では時間領域におけるエンドツーエンドの音源分離を調査します。これは位相情報をモデル化でき、固定されたスペクトル変換を回避できます。しかし、音声のサンプリングレートが高いことから、サンプルレベルで長い時間的な入力コンテキストを使用することは困難であり、高品質な分離結果を得るためには長距離の時間的相関が必要です。この文脈において、我々はWave-U-Net(ウェイブ・ユーネット)を提案します。これはU-Netを一次元時間領域に適応させたもので、特徴マップを繰り返しリサンプリングして異なる時間スケールでの特徴を計算および結合します。さらに、出力層でソース加法性を強制するアーキテクチャの改善点やアップサンプリング技術、出力アーティファクトを削減するためのコンテキスト認識型予測フレームワークについても紹介します。歌唱声分離に関する実験では、同じデータを使用した場合、我々のアーキテクチャが最新のスペクトログラムベースのU-Netアーキテクチャと同等の性能を示すことが確認されました。最後に、現在使用されているSDR評価指標における外れ値の問題を明らかにし、この問題を緩和するために順位に基づく統計量の報告を提案しています。

Wave-U-Net: エンドツーエンド音源分離のための多スケールニューラルネットワーク | 最新論文 | HyperAI超神経