2달 전
Wave-U-Net: End-to-End 오디오 소스 분리용 다중 스케일 신경망
Daniel Stoller; Sebastian Ewert; Simon Dixon

초록
오디오 소스 분리 모델은 일반적으로 크기 스펙트럼을 사용하여 위상 정보를 무시하고, 스펙트럼 프론트엔드의 하이퍼파라미터에 따라 분리 성능이 좌우됩니다. 따라서, 우리는 시간 영역에서의 엔드투엔드 소스 분리를 연구합니다. 이 방법은 위상 정보를 모델링할 수 있으며 고정된 스펙트럼 변환을 피할 수 있습니다. 그러나 오디오의 높은 샘플링 속도로 인해 샘플 단위에서 긴 시간 입력 컨텍스트를 사용하는 것이 어려운데, 이는 장거리 시간 상관 관계 때문에 고품질 분리 결과를 얻기 위해 필수적입니다. 이러한 맥락에서, 우리는 1차원 시간 영역으로 U-Net을 적응시킨 Wave-U-Net을 제안합니다. 이 모델은 다양한 시간 스케일에서 특징을 계산하고 결합하기 위해 특징 맵을 반복적으로 재샘플링합니다. 또한, 소스 가법성을 강제하는 출력층, 업샘플링 기술 및 출력 아티팩트를 줄이는 컨텍스트 인식 예측 프레임워크와 같은 추가적인 구조적 개선점을 소개합니다. 노래 목소리 분리 실험 결과, 우리의 아키텍처는 동일한 데이터 조건에서 최신 스펙트로그램 기반 U-Net 아키텍처와 유사한 성능을 보임을 확인하였습니다. 마지막으로, 현재 사용 중인 SDR 평가 지표에서 이상치(outliers) 문제를 밝히고, 이 문제를 완화하기 위해 순위 기반 통계 값을 보고할 것을 제안합니다.