15일 전
딥 U-넷 컨볼루션 네트워크를 이용한 성악 음성 분리
{Tillman Weyde, Aparna Kumar, Rachel Bittner, Nicola Montecchio, Eric Humphrey, Andreas Jansson}
초록
음악 오디오 신호를 보컬과 백업 트랙으로 분해하는 것은, 혼합된 스펙트로그램을 그 구성 요소인 소스로 변환하는 이미지-to-이미지 번역과 유사한 과정이다. 본 연구에서는 의료 영상 분석 분야에서 처음 개발된 U-넷 아키텍처를 소스 분리 작업에 새로운 응용으로 제안한다. 이 아키텍처는 고품질 오디오 재생에 필수적인 세밀한 저수준 세부 정보를 재현할 수 있는 능력이 입증되어 있어, 본 문제에 적합하다고 판단된다. 정량적 평가와 주관적 평가를 통해 수행된 실험 결과, 제안하는 알고리즘이 현재까지의 최고 수준의 성능을 달성함을 입증하였다.