13일 전
Make-An-Audio: 프롬프트 강화된 확산 모델을 활용한 텍스트-오디오 생성
Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao

초록
대규모 다중모달 생성 모델링은 텍스트에서 이미지, 텍스트에서 영상 생성 분야에서 획기적인 성과를 이루었으나, 음성 생성 분야에서는 두 가지 주요 이유로 뒤처지고 있다. 첫째, 고품질의 텍스트-음성 쌍을 포함한 대규모 데이터셋의 부족이며, 둘째, 긴 연속적인 음성 데이터를 모델링하는 데 따른 복잡성이다. 본 연구에서는 이러한 격차를 해소하기 위해 프롬프트 강화 확산 모델을 활용한 Make-An-Audio를 제안한다. 제안하는 방법은 다음과 같다. 1) 언어 없는 음성 데이터를 활용하여 ‘학습 후 재프로그래밍(-distill-then-reprogram)’ 방식의 가상 프롬프트 강화를 도입함으로써, 개념 조합의 수를 수 배 이상 증가시켜 데이터 부족 문제를 완화한다. 2) 음성 파형 대신 스펙트로그램 오토에코더를 활용하여 자기지도형 음성 표현을 예측함으로써, 긴 연속 음성 데이터의 모델링을 효율적으로 수행한다. 이러한 기법은 강력한 대조적 언어-음성 사전학습(CLAP) 표현과 결합되어, 주관적 및 객관적 기준 평가에서 최신 기술 수준의 성능을 달성한다. 또한 본 연구는 ‘모달리티를 하나도 소외시키지 않음(No Modality Left Behind)’의 철학 아래, X-to-Audio에 대한 제어 가능성과 일반화 능력을 처음으로 제시하며, 사용자가 정의한 모달리티 입력에 기반해 고해상도·고음질 음성을 생성할 수 있는 능력을 열었다. 음성 샘플은 https://Text-to-Audio.github.io 에서 확인할 수 있다.