CWS-PResUNet: 채널별 서브밴드 위상 인지 ResUNet을 이용한 음악 소스 분리

최근 몇 년간 딥러닝 모델의 발전으로 음악 소스 분리(Music Source Separation, MSS) 분야에서 활발한 연구가 진행되고 있다. 많은 MSS 모델들은 혼합 신호의 위상 정보를 재사용하면서, 스펙트로그램 기반으로 제한된 비율 마스크( bounded ratio mask)를 추정하여 신호를 분리한다. 특히 컨볼루션 신경망(Convolutional Neural Networks, CNN)을 사용할 경우, 주파수 대역 간의 다양한 패턴에도 불구하고 스펙트로그램 내에서 가중치를 전역적으로 공유하는 경우가 일반적이다. 본 연구에서는 각 소스에 대해 비제한 복소 이상 비율 마스크(Complex Ideal Ratio Mask, cIRM)를 추정할 수 있도록 하면서 신호를 하위대역(subband)으로 분해하는 새로운 MSS 모델인 채널별 하위대역 위상 인지 ResUNet(CWS-PResUNet)을 제안한다. CWS-PResUNet는 스펙트로그램 상에서 불필요한 전역 가중치 공유를 제한하고 계산 자원 소모를 줄이기 위해 채널별 하위대역(Channel-wise Subband, CWS) 특징을 활용한다. 이로 인해 절약된 계산 비용과 메모리 용량은 더 큰 아키텍처 설계를 가능하게 한다. MUSDB18HQ 테스트 세트에서, 우리는 276층의 CWS-PResUNet을 제안하여 보컬 분리에서 신호 대 간섭 비율(Signal-to-Distortion Ratio, SDR) 8.92로 최신 기술(SoTA) 수준의 성능을 달성하였다. 또한 CWS-PResUNet과 Demucs를 결합한 ByteMSS 시스템은 2021 ISMIR 음악 디믹싱(Music Demixing, MDX) 챌린지의 제한된 학습 데이터 트랙(리더보드 A)에서 보컬 점수 2위, 평균 점수 5위를 기록하였다. 본 연구의 코드와 사전 학습된 모델은 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet