16일 전
계층적 시계열 컨볼루션 네트워크와 크로스 도메인 인코더를 활용한 음악 소스 분리
{Hao Huang, Liang He, Wenzhong Yang, Yadong Chen, Ying Hu}
초록
최근 들어 원시 음성 웨이브폼을 직접 모델링하는 시간 도메인 기반 방법들이 음성 소스 분리 분야에서 큰 잠재력을 보이고 있다. 본 논문에서는 시간 도메인 특징과 복소 스펙트로그램 도메인 특징을 교차 도메인 인코더(Cross-domain Encoder, CDE)를 통해 결합하고, 다중 음악 소스 분리를 위해 계층적 시계열 컨볼루션 네트워크(Hierarchical Temporal Convolutional Network, HTCN)를 채택한 모델을 제안한다. CDE는 시간 도메인과 복소 스펙트로그램 도메인 특징 간의 상호작용 정보를 효과적으로 인코딩할 수 있도록 설계되었으며, HTCN은 긴 시계열 의존성을 효과적으로 학습할 수 있도록 한다. 또한 HTCN에 적용 가능한 특징 보정 유닛(Feature Calibration Unit, FCU)을 설계하였고, 학습 단계에서 다단계 학습 전략을 도입하였다. 제안된 모델의 각 구성 요소의 효과를 검증하기 위해 실험을 수행한 결과, 각 구성 요소의 유용성이 입증되었다. MUSDB18 데이터셋을 기반으로 한 실험 결과, 제안하는 CDE-HTCN 모델은 최첨단 기법들을 모두 상회하며, 현재 최고 수준의 모델인 DEMUCS와 비교해 평균 SDR 스코어에서 0.61 dB의 성능 향상을 달성하였다. 특히 베이스 소스에 대한 SDR 스코어 향상은 0.91 dB에 달하여 상당한 개선을 보였다.