
음악의 소스 분리(source separation)는 별개의 악기들이 개별적으로 녹음된 후 하나의 곡을 구성하도록 배열된 각각의 음원 기여도(stem)를 분리하는 작업이다. 이러한 구성 요소에는 보컬, 베이스, 드럼 및 기타 보조 악기 음원이 포함된다. 음성 합성과 같은 많은 오디오 생성 작업에서 최고의 성능을 달성하기 위해 모델이 직접 웨이브폼을 생성하는 방식이 선호되는 반면, 음악의 소스 분리 분야에서는 현재 최고의 성능을 내는 방법은 크기 스펙트럼(magnitude spectrum)에 마스크를 계산하는 방식이다. 본 논문에서는 두 가지 웨이브폼 도메인 아키텍처를 비교한다. 먼저, 초기에 음성 소스 분리에 사용되도록 개발된 Conv-TasNet을 음악 소스 분리 작업에 적응시켰다. Conv-TasNet은 많은 기존의 스펙트로그램 도메인 방법들을 능가하지만, 인간 평가 결과에 따르면 상당한 아티팩트 문제가 존재한다. 대신 우리는 U-Net 구조와 양방향 LSTM을 갖춘 새로운 웨이브폼-웨이브폼 모델인 Demucs를 제안한다. MusDB 데이터셋에서의 실험 결과, 적절한 데이터 증강(data augmentation)을 적용한 Demucs는 Conv-TasNet을 포함한 모든 기존 최첨단 아키텍처를 능가하며, 평균적으로 6.3 SDR를 기록했고(150곡의 추가 학습 데이터를 사용할 경우 최대 6.8까지 도달하며, 베이스 소스의 경우 IRM 오라클을 초과함), 음질의 자연스러움 측면에서 뚜렷한 우위를 보였다. 최근의 모델 양자화 기술을 활용해 Demucs는 정확도 손실 없이 120MB로 압축할 수 있다. 또한 인간 평가 결과를 제시하며, Demucs가 음질의 자연스러움 측면에서 큰 이점을 가지고 있음을 입증한다. 다만, 보컬과 다른 소스 간에 일부 혼합(bleeding) 현상이 발생하는 경향이 있다.