2달 전
AudioLDM 2: 자기지도 사전학습을 활용한 통합 오디오 생성 학습
Liu, Haohe ; Yuan, Yi ; Liu, Xubo ; Mei, Xinhao ; Kong, Qiuqiang ; Tian, Qiao ; Wang, Yuping ; Wang, Wenwu ; Wang, Yuxuan ; Plumbley, Mark D.

초록
오디오 생성은 말, 음악, 사운드 이펙트 등 다양한 유형의 오디오에서 공통점을 가지고 있지만, 각 유형에 대한 모델 설계는 다른 유형과 크게 다를 수 있는 특정 목표와 편향을 신중하게 고려해야 합니다. 본 논문에서는 이러한 차이를 극복하고 오디오 생성에 대한 통합적인 관점을 제시하기 위해, 말, 음악, 사운드 이펙트 생성에 동일한 학습 방법을 사용하는 프레임워크를 제안합니다. 우리의 프레임워크는 "오디오 언어" (Language of Audio, LOA)라고 불리는 일반적인 오디오 표현을 도입합니다. 어떤 오디오든 자기 지도 학습된 표현 학습 모델인 AudioMAE를 기반으로 LOA로 번역될 수 있습니다. 생성 과정에서는 GPT-2 모델을 사용하여 모든 모달리티를 LOA로 번역하고, LOA를 조건으로 하는 잠재 확산 모델을 통해 자기 지도 오디오 생성 학습을 수행합니다. 제안된 프레임워크는 문맥 내 학습 능력과 재사용 가능한 자기 지도 사전 학습된 AudioMAE 및 잠재 확산 모델 등의 장점을 자연스럽게 제공합니다. 텍스트-오디오, 텍스트-음악, 텍스트-말 변환 주요 벤치마크 실험에서 제안된 접근법은 기존 방법들과 비교해 최신 수준 또는 경쟁력 있는 성능을 보여주었습니다. 우리의 코드, 사전 학습된 모델, 그리고 데모는 https://audioldm.github.io/audioldm2 에서 확인할 수 있습니다.