11일 전

하이브리드 트랜스포머를 활용한 음악 소스 분리

Simon Rouard, Francisco Massa, Alexandre Défossez
하이브리드 트랜스포머를 활용한 음악 소스 분리
초록

음악 소스 분리(Music Source Separation, MSS)에서 자연스럽게 제기되는 질문은 장거리 맥락 정보가 유용한지, 아니면 국소적인 음향 특징만으로도 충분한지 여부이다. 다른 분야에서는 주목(attention) 기반 트랜스포머(Transformer)가 긴 시퀀스에 걸쳐 정보를 통합할 수 있음을 보여주었다. 본 연구에서는 하이브리드 디뮤스(Hybrid Demucs)를 기반으로 한 하이브리드 트랜스포머 디뮤스(Hybrid Transformer Demucs, HT Demucs)를 제안한다. 이 모델은 시간적·주파수적 특성을 동시에 처리하는 이중 U-넷(bi-U-Net) 구조를 기반으로 하며, 가장 내부의 레이어를 교차 도메인 트랜스포머 인코더로 대체하였다. 이 인코더는 동일 도메인 내에서 자기 주목(self-attention)을 적용하고, 서로 다른 도메인 간에 교차 주목(cross-attention)을 수행한다. MUSDB 데이터만으로 학습할 경우 성능이 낮았지만, 800개의 추가 학습 곡을 사용할 경우, 동일한 데이터로 학습된 하이브리드 디뮤스보다 SDR(신호 대 간섭 비율)에서 0.45 dB 향상된 성능을 보였다. 또한 희소 주목 커널(sparse attention kernels)을 활용하여 수용 영역을 확장하고, 각 소스별로 미세 조정(per source fine-tuning)을 수행함으로써, 추가 학습 데이터를 활용한 MUSDB에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, SDR는 9.20 dB에 도달하였다.