16일 전

효율적인 단기 이산 코사인 변환과 주의 기반 다중 해상도 UNet 프레임워크를 활용한 음악 소스 분리

{N. Mitianoudis, A. Bousis, T. Sgouros}
초록

음악 소스 분리 문제는 혼합된 신호에 포함된 음성 구성 요소를 추정하는 것을 목표로 하는 오랜 연구 주제로, 최근에는 깊은 학습 모델을 활용하여 STFT(단기 푸리에 변환) 스펙트로그램을 입력으로 사용하여 각 구성 요소에서 정보를 추출하는 방식으로 접근하고 있다. 대부분의 기존 방법은 각 시간-주파수 점에 하나의 소스만 존재한다고 가정하며, 이 가정을 바탕으로 혼합 신호의 해당 점을 원하는 소스에 할당한다. 그러나 이러한 가정은 강한 제약을 수반하며, 실제 상황에서는 성립하지 않는다는 보고가 있다. 이로 인해 STFT의 크기 정보만을 입력으로 사용하는 네트워크에서는 소스 재구성 과정에서 푸리에 위상 정보를 상실하는 문제가 발생한다. 푸리에 위상 정보를 복원하는 것은 해석하기 어렵고, 계산적으로도 비효율적인 문제가 있다. 본 논문에서는 실수형 단기 이산 코사인 변환(Short-Time Discrete Cosine Transform, ST-DCT) 데이터를 입력으로 사용하는 새로운 주의 메커니즘을 통합한 다중 해상도 U-Net 구조(Attentive MultiResUNet)를 제안한다. 이 방법은 네트워크 내부에서 직접 적절한 값을 추정함으로써 위상 복원 문제를 회피하며, 복잡한 추정 또는 후처리 알고리즘을 사용하지 않는다. 제안된 네트워크는 U-Net 구조를 기반으로 하되, 잔차 연결(residual skip connections)과 주의 메커니즘을 포함하여, 이전 계층의 스킵 연결과 디코더 출력 간의 상관관계를 모델링한다. 이 네트워크는 소스 분리 분야에서 처음으로 적용되었으며, 기존 최고 수준의 분리 네트워크보다 계산 효율성이 뛰어나면서도, 계산 비용의 일부로도 기존 최고 수준의 성능을 달성하고 있다.

효율적인 단기 이산 코사인 변환과 주의 기반 다중 해상도 UNet 프레임워크를 활용한 음악 소스 분리 | 최신 연구 논문 | HyperAI초신경