2ヶ月前

エンドツーエンドの音楽ソース分離:波形領域で可能か?

Francesc Lluís; Jordi Pons; Xavier Serra
エンドツーエンドの音楽ソース分離:波形領域で可能か?
要約

現在の大部分の成功している音源分離技術は、入力として振幅スペクトログラムを使用しており、信号の一部である位相をデフォルトで省略しています。有用な情報が含まれている可能性があるため、これを省略しないようにするために、エンドツーエンドモデルを用いた音楽音源分離の実現可能性を研究しました。このモデルは、生のオーディオ信号に含まれるすべての情報を考慮に入れます(位相を含む)。過去数十年間、エンドツーエンドの音楽音源分離はほとんど不可能とされてきましたが、私たちの結果は波形ベースのモデルがスペクトログラムベースの深層学習モデルと同等(またはそれ以上)の性能を発揮できることが確認されました。具体的には、提案するWaveNetベースのモデルとWave-U-Netが最近開発されたスペクトログラムベースの深層学習モデルであるDeepConvSepを上回ることが示されています。

エンドツーエンドの音楽ソース分離:波形領域で可能か? | 最新論文 | HyperAI超神経