16일 전
경량화된 딥러닝 프레임워크 기반 음악 소스 분리(DTTNET: DUAL-PATH TFC-TDF UNET)
Junyu Chen, Susmitha Vekkot, Pancham Shukla

초록
음악 소스 분리(Music Source Separation, MSS)는 혼합된 음악에서 '보컬', '드럼', '베이스', '기타' 등의 트랙을 추출하는 것을 목표로 한다. 딥러닝 기법은 놀라운 성과를 보여주고 있으나, 모델의 규모가 점점 커지는 추세이다. 본 논문에서는 이중경로 모듈(Dual-Path Module)과 시간-주파수 컨볼루션(Time-Frequency Convolutions)을 기반으로 한 시간분산 전결합 U-Net(TFC-TDF UNet) 아키텍처를 활용한 새로운 가벼운 구조인 DTTNet을 제안한다. DTTNet은 보컬에 대해 10.12 dB의 cSDR 성능을 달성하였으며, 이는 기존의 Bandsplit RNN(BSRNN)이 보고한 10.01 dB보다 우수한 성능이다. 동시에 파라미터 수는 86.7% 감소하여 매우 효율적인 구조를 확보하였다. 또한 복잡한 음향 패턴에 대한 패턴별 성능과 모델의 일반화 능력을 평가하였다.