15日前

2ステップ音源分離:学習された潜在的ターゲットに基づく訓練

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Cem Subakan, Paris Smaragdis
2ステップ音源分離:学習された潜在的ターゲットに基づく訓練
要約

本稿では、深層ニューラルネットワークを用いた音源分離のための2段階学習手順を提案する。第1段階では、オラクルを用いたマスキングベースの分離性能が最適となる潜在空間への変換(およびその逆変換)を学習する。第2段階では、前段階で学習された潜在空間上で動作する分離モジュールを訓練する。この目的のため、潜在空間で有効なスケール不変信号歪み比(SI-SDR)損失関数を導入し、それが時間領域におけるSI-SDRを下から抑えることを証明する。さまざまな音源分離実験を通じて、本手法が変換と分離モジュールを同時に学習する従来の手法と比較して優れた性能を達成できることを示す。本手法は、多数のニューラルネットワークを用いたエンドツーエンド分離システムに一般に適用可能な汎用性を持つ。

2ステップ音源分離:学習された潜在的ターゲットに基づく訓練 | 最新論文 | HyperAI超神経