11일 전
LaSAFT: 조건부 소스 분리용 잠재 소스 주의 깊은 주파수 변환
Woosung Choi, Minseok Kim, Jaehwa Chung, Soonyoung Jung

초록
최근의 딥러닝 접근법들은 주파수 변환(Frequency Transformation, FT) 블록이 주파수 스펙트로그램 기반의 단일 소스 분리 모델의 성능을 크게 향상시킬 수 있음을 보여주었다. 이 논문의 목적은 FT 블록을 다중 소스 분리 작업에 적합하도록 확장하는 것이다. 본 연구에서는 소스에 따라 달라지는 주파수 패턴을 포착하기 위해 잠재적 소스에 대한 주의 메커니즘을 갖춘 주파수 변환(Latent Source Attentive Frequency Transformation, LaSAFT) 블록을 제안한다. 또한, 특성별 선형 조절(Feature-wise Linear Modulation, FiLM)의 확장 형태인 게이트형 포인트와이즈 컨볼루션 조절(Gated Point-wise Convolutional Modulation, GPoCM)을 제안하여 내부 특징을 조절한다. 이러한 두 가지 새로운 기법을 활용하여 조건부 U-넷(Conditioned-U-Net, CUNet)을 다중 소스 분리에 적용하였으며, 실험 결과는 제안한 LaSAFT와 GPoCM가 CUNet의 성능을 향상시켜 MUSDB18 소스 분리 작업에서 여러 측면에서 최신 기준(SOTA) 수준의 SDR 성능을 달성함을 보여준다.