11일 전

밴드 분할 RNN을 활용한 음악 소스 분리

Yi Luo, Jianwei Yu
밴드 분할 RNN을 활용한 음악 소스 분리
초록

최근 몇 년간 신규 신경망 아키텍처 및 학습 파이프라인의 발전 덕분에 음악 소스 분리(Music Source Separation, MSS) 모델의 성능이 크게 향상되었다. 그러나 최근 MSS를 위한 모델 설계는 주로 다른 음성 처리 작업이나 다른 연구 분야에서 영감을 받은 것으로, 음악 신호의 내재적 특성과 패턴이 충분히 탐구되지 않았다. 본 논문에서는 스펙트로그램을 하위 대역으로 명시적으로 분할하고, 대역 수준과 시퀀스 수준 모델링을 교차적으로 수행하는 주파수 도메인 모델인 밴드 스플릿 RNN(Band-Split RNN, BSRNN)을 제안한다. 하위 대역의 대역폭 선택은 타깃 소스의 특성에 대한 사전 지식 또는 전문가 지식에 기반하여, 특정 유형의 타깃 악기 성능을 최적화할 수 있다. 또한 레이블이 없는 데이터를 보다 효과적으로 활용하기 위해, 모델 성능을 추가로 향상시킬 수 있는 반감독 학습(finetuning) 파이프라인도 제안한다. 실험 결과, MUSDB18-HQ 데이터셋에서만 훈련된 BSRNN은 2021년 Music Demixing (MDX) 챌린지의 여러 상위 순위 모델들을 뛰어넘는 성능을 보였으며, 반감독 학습 단계를 거친 후에는 네 가지 악기 트랙 모두에서 성능이 더욱 향상됨을 확인할 수 있었다.

밴드 분할 RNN을 활용한 음악 소스 분리 | 최신 연구 논문 | HyperAI초신경