CLAPSep: 대조적 사전 학습 모델을 활용한 다중 모달 쿼리 조건부 대상 소음 추출

유니버설 사운드 분리(Universal Sound Separation, USS)는 실제 녹음에서 임의의 종류의 소리를 추출하는 것을 목표로 합니다. 이는 언어 쿼리 기반 대상 소음 추출(Target Sound Extraction, TSE)을 통해 달성할 수 있으며, 일반적으로 두 가지 구성 요소로 이루어져 있습니다: 사용자 쿼리를 조건부 임베딩으로 변환하는 쿼리 네트워크와 대상 소음을 추출하는 분리 네트워크입니다. 기존 방법들은 대부분 모델을 처음부터 학습시키는데, 이로 인해 무작위 초기화된 모델이 사운드 이벤트를 이해하고 적절히 분리할 수 있도록 하는 데 많은 데이터와 계산 자원이 필요합니다. 본 논문에서는 이러한 문제를 해결하기 위해事前학습된 모델을 TSE 모델에 통합하는 방법을 제안합니다. 구체적으로, 강력한 대조적 언어-오디오事前학습 모델(Contrastive Language-Audio Pre-trained model, CLAP)을 USS에 맞게 조정 및 적응시켜 CLAPSep으로 표기하였습니다. CLAPSep은 유연한 사용자 입력을 받아들여 단일 및/또는 다중 모달의 긍정적 및 부정적 사용자 프롬프트를 모두 처리하여 대상 소음을 추출합니다. 이러한 CLAPSep의 주요 특징은 추출 성능을 향상시키고 응용 범위를 확장할 수 있는 장점이 있습니다. 우리는 5개의 다양한 데이터셋에서 광범위한 실험을 수행하여 제안된 CLAPSep의 우수한 성능과 zero- 및 few-shot 일반화 능력을 빠른 학습 수렴과 함께 입증하였습니다. 이는 기존 방법들을 크게 능가합니다. 또한 재현 및 평가를 위해 전체 코드와 일부 오디오 예제를 공개하였습니다.注:在翻译中,“事前学習”是一个日语词汇,用于表示“预训练”。韩语中通常使用“사전 학습”来表示这一概念。因此,正确的翻译应该是:본 논문에서는 이러한 문제를 해결하기 위해 사전 학습된 모델을 TSE 모델에 통합하는 방법을 제안합니다. 구체적으로, 강력한 대조적 언어-오디오 사전 학습 모델(Contrastive Language-Audio Pre-trained model, CLAP)을 USS에 맞게 조정 및 적응시켜 CLAPSep으로 표기하였습니다.