16일 전

D3Net: 음악 소스 분리용 밀집 연결 다중 확대(DenseNet)

Naoya Takahashi, Yuki Mitsufuji
D3Net: 음악 소스 분리용 밀집 연결 다중 확대(DenseNet)
초록

음악 소스 분리에서는 오디오 신호의 장기적 의존성을 모델링하기 위해 큰 입력 영역을 필요로 한다. 기존의 컨볼루션 신경망(CNN) 기반 접근법들은 순차적인 다운샘플링 및 업샘플링 특징 맵 또는 확장 컨볼루션을 사용하여 큰 입력 영역 모델링을 해결해왔다. 본 논문에서는 단일 컨볼루션 레이어 내에서 수용 영역의 빠른 성장과 다중 해상도 데이터의 동시 모델링의 중요성을 강조하며, 새로운 CNN 아키텍처인 밀집 연결 확장 DenseNet(D3Net)을 제안한다. D3Net은 단일 레이어 내에서 서로 다른 확장 계수(dilation factor)를 갖는 새로운 다중 확장 컨볼루션(multi-dilated convolution)을 도입하여 다양한 해상도를 동시에 모델링한다. 이 다중 확장 컨볼루션을 DenseNet 아키텍처와 결합함으로써, 기존에 DenseNet에 단순히 확장 컨볼루션을 적용할 경우 발생할 수 있는 앨리어싱(aliasing) 문제를 효과적으로 회피할 수 있다. MUSDB18 데이터셋을 이용한 실험 결과, D3Net은 평균 신호 대 왜곡 비율(SDR) 6.01 dB의 최신 기술 수준 성능을 달성하였다.

D3Net: 음악 소스 분리용 밀집 연결 다중 확대(DenseNet) | 최신 연구 논문 | HyperAI초신경