12일 전
AudioLDM: 잠재 확산 모델을 활용한 텍스트 기반 오디오 생성
Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley

초록
텍스트-오디오(Text-to-audio, TTA) 시스템은 텍스트 설명에 기반하여 일반적인 오디오를 합성할 수 있는 능력으로 최근 주목받고 있다. 그러나 기존의 TTA 연구들은 높은 계산 비용으로 인해 생성 품질에 한계가 있었다. 본 연구에서는 대조적 언어-오디오 사전학습(Contrastive Language-Audio Pretraining, CLAP) 잠재 공간(latent space)을 기반으로 하여 연속적인 오디오 표현을 학습하는 AudioLDM을 제안한다. 사전 학습된 CLAP 모델을 통해 오디오 임베딩을 학습하면서 샘플링 시 텍스트 임베딩을 조건으로 제공할 수 있다. AudioLDM은 다중 모달 간의 관계를 직접 모델링하지 않고 오디오 신호 및 그 조합의 잠재 표현을 학습함으로써, 생성 품질과 계산 효율성 측면에서 모두 우수한 성능을 발휘한다. 단일 GPU를 사용하여 AudioCaps 데이터셋으로 학습한 AudioLDM은 객관적 및 주관적 평가 지표(예: 프레체트 거리, Fréchet distance)에서 최신 기술(SOTA) 수준의 TTA 성능을 달성하였다. 더불어 AudioLDM은 텍스트 지도에 따라 다양한 오디오 변형(예: 스타일 전이)을 제로샷(Zero-shot) 방식으로 가능하게 하는 최초의 TTA 시스템이다. 구현 코드 및 데모는 https://audioldm.github.io 에서 확인할 수 있다.