
음악 소스 분리(Music Source Separation, MSS)에서 자연스럽게 제기되는 질문은 장거리 맥락 정보가 유용한지, 아니면 국소적인 음향 특징만으로도 충분한지 여부이다. 다른 분야에서는 주목(attention) 기반 트랜스포머(Transformer)가 긴 시퀀스에 걸쳐 정보를 통합할 수 있음을 보여주었다. 본 연구에서는 하이브리드 디뮤스(Hybrid Demucs)를 기반으로 한 하이브리드 트랜스포머 디뮤스(Hybrid Transformer Demucs, HT Demucs)를 제안한다. 이 모델은 시간적·주파수적 특성을 동시에 처리하는 이중 U-넷(bi-U-Net) 구조를 기반으로 하며, 가장 내부의 레이어를 교차 도메인 트랜스포머 인코더로 대체하였다. 이 인코더는 동일 도메인 내에서 자기 주목(self-attention)을 적용하고, 서로 다른 도메인 간에 교차 주목(cross-attention)을 수행한다. MUSDB 데이터만으로 학습할 경우 성능이 낮았지만, 800개의 추가 학습 곡을 사용할 경우, 동일한 데이터로 학습된 하이브리드 디뮤스보다 SDR(신호 대 간섭 비율)에서 0.45 dB 향상된 성능을 보였다. 또한 희소 주목 커널(sparse attention kernels)을 활용하여 수용 영역을 확장하고, 각 소스별로 미세 조정(per source fine-tuning)을 수행함으로써, 추가 학습 데이터를 활용한 MUSDB에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, SDR는 9.20 dB에 도달하였다.