2달 전

Wave-U-Net: End-to-End 오디오 소스 분리용 다중 스케일 신경망

Daniel Stoller; Sebastian Ewert; Simon Dixon
Wave-U-Net: End-to-End 오디오 소스 분리용 다중 스케일 신경망
초록

오디오 소스 분리 모델은 일반적으로 크기 스펙트럼을 사용하여 위상 정보를 무시하고, 스펙트럼 프론트엔드의 하이퍼파라미터에 따라 분리 성능이 좌우됩니다. 따라서, 우리는 시간 영역에서의 엔드투엔드 소스 분리를 연구합니다. 이 방법은 위상 정보를 모델링할 수 있으며 고정된 스펙트럼 변환을 피할 수 있습니다. 그러나 오디오의 높은 샘플링 속도로 인해 샘플 단위에서 긴 시간 입력 컨텍스트를 사용하는 것이 어려운데, 이는 장거리 시간 상관 관계 때문에 고품질 분리 결과를 얻기 위해 필수적입니다. 이러한 맥락에서, 우리는 1차원 시간 영역으로 U-Net을 적응시킨 Wave-U-Net을 제안합니다. 이 모델은 다양한 시간 스케일에서 특징을 계산하고 결합하기 위해 특징 맵을 반복적으로 재샘플링합니다. 또한, 소스 가법성을 강제하는 출력층, 업샘플링 기술 및 출력 아티팩트를 줄이는 컨텍스트 인식 예측 프레임워크와 같은 추가적인 구조적 개선점을 소개합니다. 노래 목소리 분리 실험 결과, 우리의 아키텍처는 동일한 데이터 조건에서 최신 스펙트로그램 기반 U-Net 아키텍처와 유사한 성능을 보임을 확인하였습니다. 마지막으로, 현재 사용 중인 SDR 평가 지표에서 이상치(outliers) 문제를 밝히고, 이 문제를 완화하기 위해 순위 기반 통계 값을 보고할 것을 제안합니다.

Wave-U-Net: End-to-End 오디오 소스 분리용 다중 스케일 신경망 | 최신 연구 논문 | HyperAI초신경