16日前

軽量なディープラーニングフレームワークに基づく音楽ソース分離(DTTNET: DUAL-PATH TFC-TDF UNET)

Junyu Chen, Susmitha Vekkot, Pancham Shukla
軽量なディープラーニングフレームワークに基づく音楽ソース分離(DTTNET: DUAL-PATH TFC-TDF UNET)
要約

音楽ソース分離(Music Source Separation: MSS)は、混音された音楽から「ボーカル」「ドラム」「ベース」「その他」のトラックを抽出することを目的としています。深層学習手法は優れた成果を示しているものの、モデルの大型化が進む傾向にあります。本論文では、二重パスモジュール(Dual-Path Module)と時系列・周波数領域畳み込み、時系列分散型全結合U-net(Time-Frequency Convolutions Time-Distributed Fully-connected UNet: TFC-TDF UNet)を組み合わせた、新規かつ軽量なアーキテクチャであるDTTNetを提案します。DTTNetは、ボーカル成分において10.12 dBのcSDRを達成し、Bandsplit RNN(BSRNN)の報告値10.01 dBを上回る性能を示す一方で、パラメータ数を86.7%削減しています。さらに、複雑な音響パターンに対するパターン固有の性能およびモデルの汎化能力についても評価を行いました。

軽量なディープラーニングフレームワークに基づく音楽ソース分離(DTTNET: DUAL-PATH TFC-TDF UNET) | 最新論文 | HyperAI超神経