16日前

LaSAFT:条件付きソース分離のための潜在的ソース注意型周波数変換

Woosung Choi, Minseok Kim, Jaehwa Chung, Soonyoung Jung
LaSAFT:条件付きソース分離のための潜在的ソース注意型周波数変換
要約

最近のディープラーニングアプローチでは、周波数変換(Frequency Transformation; FT)ブロックがスペクトログラムに基づく単一音源分離モデルの性能を著しく向上させること、すなわち周波数パターンを効果的に捉えることができる点が示されている。本論文の目的は、このFTブロックを複数音源分離タスクに拡張することである。そこで、音源依存の周波数パターンを捉えるための、潜在的音源注意型周波数変換(Latent Source Attentive Frequency Transformation; LaSAFT)ブロックを提案する。さらに、特徴量ごとの線形調制(Feature-wise Linear Modulation; FiLM)の拡張として、ゲート付きポイントワイズ畳み込み調制(Gated Point-wise Convolutional Modulation; GPoCM)を導入し、内部特徴量の調制を可能にする。これらの新規手法を用いて、条件付きU-Net(Conditioned-U-Net; CUNet)を複数音源分離に適応させた。実験結果から、本研究で提案するLaSAFTおよびGPoCMがCUNetの性能を向上させ、複数のMUSDB18音源分離タスクにおいて最先端のSDR(Signal-to-Distortion Ratio)性能を達成することが確認された。

LaSAFT:条件付きソース分離のための潜在的ソース注意型周波数変換 | 最新論文 | HyperAI超神経