7ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

ディープラーニング

アプローチ／フレームワーク

オーディオ

Daniel Stoller; Sebastian Ewert; Simon Dixon

概要

音源分離のモデルは通常、位相情報を無視する振幅スペクトルを対象としており、これによりスペクトルフロントエンドのハイパーパラメータに分離性能が依存します。そこで、本研究では時間領域におけるエンドツーエンドの音源分離を調査します。これは位相情報をモデル化でき、固定されたスペクトル変換を回避できます。しかし、音声のサンプリングレートが高いことから、サンプルレベルで長い時間的な入力コンテキストを使用することは困難であり、高品質な分離結果を得るためには長距離の時間的相関が必要です。この文脈において、我々はWave-U-Net（ウェイブ・ユーネット）を提案します。これはU-Netを一次元時間領域に適応させたもので、特徴マップを繰り返しリサンプリングして異なる時間スケールでの特徴を計算および結合します。さらに、出力層でソース加法性を強制するアーキテクチャの改善点やアップサンプリング技術、出力アーティファクトを削減するためのコンテキスト認識型予測フレームワークについても紹介します。歌唱声分離に関する実験では、同じデータを使用した場合、我々のアーキテクチャが最新のスペクトログラムベースのU-Netアーキテクチャと同等の性能を示すことが確認されました。最後に、現在使用されているSDR評価指標における外れ値の問題を明らかにし、この問題を緩和するために順位に基づく統計量の報告を提案しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

ディープラーニング

アプローチ／フレームワーク

オーディオ

Daniel Stoller; Sebastian Ewert; Simon Dixon

概要

音源分離のモデルは通常、位相情報を無視する振幅スペクトルを対象としており、これによりスペクトルフロントエンドのハイパーパラメータに分離性能が依存します。そこで、本研究では時間領域におけるエンドツーエンドの音源分離を調査します。これは位相情報をモデル化でき、固定されたスペクトル変換を回避できます。しかし、音声のサンプリングレートが高いことから、サンプルレベルで長い時間的な入力コンテキストを使用することは困難であり、高品質な分離結果を得るためには長距離の時間的相関が必要です。この文脈において、我々はWave-U-Net（ウェイブ・ユーネット）を提案します。これはU-Netを一次元時間領域に適応させたもので、特徴マップを繰り返しリサンプリングして異なる時間スケールでの特徴を計算および結合します。さらに、出力層でソース加法性を強制するアーキテクチャの改善点やアップサンプリング技術、出力アーティファクトを削減するためのコンテキスト認識型予測フレームワークについても紹介します。歌唱声分離に関する実験では、同じデータを使用した場合、我々のアーキテクチャが最新のスペクトログラムベースのU-Netアーキテクチャと同等の性能を示すことが確認されました。最後に、現在使用されているSDR評価指標における外れ値の問題を明らかにし、この問題を緩和するために順位に基づく統計量の報告を提案しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Wave-U-Net: エンドツーエンド音源分離のための多スケールニューラルネットワーク | 記事 | HyperAI超神経