16일 전
잠재 도메인에서 베이지안 추론을 통한 비지도 소스 분리
Michele Mancusi, Emilian Postolache, Giorgio Mariani, Marco Fumero, Andrea Santilli, Luca Cosmo, Emanuele Rodolà

초록
최첨단 음성 소스 분리 모델은 라벨링 자원 측면에서 비용이 큰 감독 기반 데이터 중심 접근법에 의존하고 있다. 반면, 어떠한 직접적인 감독 없이 이러한 모델을 훈련하는 방법은 메모리와 시간 측면에서 높은 요구를 받으며, 추론 시점에서 실용적으로 사용하기 어렵다는 한계를 지닌다. 본 연구는 시간 도메인 신호의 잠재 표현에 직접 작용하는 간단하면서도 효과적인 비감독 분리 알고리즘을 제안함으로써 이러한 한계를 극복하고자 한다. 제안된 알고리즘은 사전 훈련된 자기회귀 네트워크 형태의 깊은 베이지안 사전 확률을 활용하여 각 소스의 확률 분포를 모델링한다. 우리는 새로운 손실 항을 도입하여 이 이산 잠재 공간에 정확한 산술적 구조를 강제함으로써, 낮은 카디널리티(원소 수)를 활용하여 근사 전략에 의존하지 않고 정확한 베이지안 추론을 수행한다. 제안된 방법은 Slakh 데이터셋(arXiv:1909.08494)을 기반으로 검증되었으며, 감독 기반 최첨단 방법과 비교해 유사한 성능을 달성하면서도 다른 비감독 방법보다 더 적은 자원을 요구함을 보였다.