HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンドの音楽ソース分離:波形領域で可能か?

Francesc Lluís Jordi Pons Xavier Serra

概要

現在の大部分の成功している音源分離技術は、入力として振幅スペクトログラムを使用しており、信号の一部である位相をデフォルトで省略しています。有用な情報が含まれている可能性があるため、これを省略しないようにするために、エンドツーエンドモデルを用いた音楽音源分離の実現可能性を研究しました。このモデルは、生のオーディオ信号に含まれるすべての情報を考慮に入れます(位相を含む)。過去数十年間、エンドツーエンドの音楽音源分離はほとんど不可能とされてきましたが、私たちの結果は波形ベースのモデルがスペクトログラムベースの深層学習モデルと同等(またはそれ以上)の性能を発揮できることが確認されました。具体的には、提案するWaveNetベースのモデルとWave-U-Netが最近開発されたスペクトログラムベースの深層学習モデルであるDeepConvSepを上回ることが示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エンドツーエンドの音楽ソース分離:波形領域で可能か? | 記事 | HyperAI超神経