7일 전

약한 레이블 데이터로부터 질의 기반 학습을 통한 제로샷 오디오 소스 분리

Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
약한 레이블 데이터로부터 질의 기반 학습을 통한 제로샷 오디오 소스 분리
초록

음성 소스를 다양한 소리 원천으로 분리하기 위한 딥러닝 기법은 여러 도전 과제에 직면해 있다. 기존의 표준 아키텍처는 각각의 음성 소스 유형에 대해 별도의 모델을 훈련해야 하는 문제가 있다. 일부 유니버설 분리기(uni-versal separator)는 단일 모델을 사용하여 여러 소스를 타겟으로 삼지만, 예측되지 않은 소스에 대해 일반화하는 데 어려움을 겪는다. 본 논문에서는 대규모이지만 약한 레이블(weakly-labeled)을 가진 데이터셋인 AudioSet을 기반으로 유니버설 음성 소스 분리기의 훈련을 위한 세 가지 구성 요소로 이루어진 파이프라인을 제안한다. 첫째, 약한 레이블을 가진 훈련 데이터를 처리하기 위해 트랜스포머 기반의 사운드 이벤트 탐지 시스템을 제안한다. 둘째, 이 데이터를 활용하여 모델 훈련을 수행할 수 있는 쿼리 기반 음성 분리 모델을 설계한다. 셋째, 분리 대상이 되는 음성 소스를 지정하는 쿼리를 인코딩할 수 있는 잠재적 임베딩 처리기(latent embedding processor)를 설계하여 제로샷(Zero-shot) 일반화를 가능하게 한다. 제안하는 방법은 다수의 소리 유형에 대해 단일 모델을 사용하여 소스 분리를 수행하며, 훈련 시에는 오직 약한 레이블 데이터에 의존한다. 또한, 제안된 음성 분리기는 훈련 과정에서 전혀 접하지 않은 소스 유형에 대해서도 분리 능력을 학습할 수 있는 제로샷 설정에서 활용 가능하다. 분리 성능 평가를 위해, MUSDB18 데이터셋에서 모델 성능을 테스트하였으며, 훈련은 서로 분리된(AudioSet) 데이터셋을 사용하였다. 또한, 훈련 과정에서 제외된 음성 소스 유형에 대한 실험을 추가로 수행하여 제로샷 성능을 검증하였다. 그 결과, 두 경우 모두 현재의 감독 학습 기반 모델과 비교하여 유사한 소스 대 왜곡 비율(Source-to-Distortion Ratio, SDR) 성능을 달성하였다.

약한 레이블 데이터로부터 질의 기반 학습을 통한 제로샷 오디오 소스 분리 | 최신 연구 논문 | HyperAI초신경