16日前

SCNet:音楽ソース分離のためのスパース圧縮ネットワーク

Weinan Tong, Jiaxu Zhu, Jun Chen, Shiyin Kang, Tao Jiang, Yang Li, Zhiyong Wu, Helen Meng
SCNet:音楽ソース分離のためのスパース圧縮ネットワーク
要約

深層学習に基づく手法は、音楽ソース分離分野において顕著な成果を上げている。しかし、超広帯域音楽ソース分離において、良好な性能を維持しつつモデルの複雑さを低く抑えることは依然として困難な課題である。従来の手法は、周波数帯域間の差異を無視するか、帯域特徴を生成する過程における情報損失の問題を十分に扱っていない。本論文では、混合音声のスペクトログラムを複数の帯域に明示的に分割する新しい周波数領域ネットワーク、SCNetを提案する。本手法は、異なる周波数帯域の特性をモデル化するため、スパース性に基づくエンコーダを導入している。情報量が少ない帯域に対しては高い圧縮率を適用することで情報密度を向上させ、情報量が多い帯域に焦点を当ててモデル化を行う。このアプローチにより、計算コストを低く抑えつつ、分離性能を著しく向上できる。実験結果によれば、追加データを用いない状態で、MUSDB18-HQデータセット上において信号歪み比(SDR)9.0 dBを達成し、既存の最先端手法を上回った。特に、SCNetのCPU推論時間は、従来の最先端モデルの一つであるHT Demucsの48%にまで低減された。

SCNet:音楽ソース分離のためのスパース圧縮ネットワーク | 最新論文 | HyperAI超神経