
초록
현재 대부분의 성공적인 소스 분리 기술은 크기 스펙트로그램을 입력으로 사용하므로, 신호의 일부인 위상을 생략하게 됩니다. 잠재적으로 유용한 정보를 생략하지 않기 위해, 우리는 원시 오디오 신호에 포함된 모든 정보, 위상까지 고려하는 엔드투엔드 모델을 사용하여 음악 소스 분리를 연구합니다. 최근 수십 년 동안 엔드투엔드 음악 소스 분리는 거의 불가능하다고 여겨졌지만, 우리의 결과는 웨이브폼 기반 모델이 스펙트로그램 기반 딥러닝 모델과 비슷하거나(아니면 더 우수하게) 수행할 수 있음을 확인합니다. 구체적으로, 우리가 제안한 Wavenet 기반 모델과 Wave-U-Net은 최근의 스펙트로그램 기반 딥러닝 모델인 DeepConvSep보다 우수한 성능을 보입니다.