13일 전

Make-An-Audio: 프롬프트 강화된 확산 모델을 활용한 텍스트-오디오 생성

Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao
Make-An-Audio: 프롬프트 강화된 확산 모델을 활용한 텍스트-오디오 생성
초록

대규모 다중모달 생성 모델링은 텍스트에서 이미지, 텍스트에서 영상 생성 분야에서 획기적인 성과를 이루었으나, 음성 생성 분야에서는 두 가지 주요 이유로 뒤처지고 있다. 첫째, 고품질의 텍스트-음성 쌍을 포함한 대규모 데이터셋의 부족이며, 둘째, 긴 연속적인 음성 데이터를 모델링하는 데 따른 복잡성이다. 본 연구에서는 이러한 격차를 해소하기 위해 프롬프트 강화 확산 모델을 활용한 Make-An-Audio를 제안한다. 제안하는 방법은 다음과 같다. 1) 언어 없는 음성 데이터를 활용하여 ‘학습 후 재프로그래밍(-distill-then-reprogram)’ 방식의 가상 프롬프트 강화를 도입함으로써, 개념 조합의 수를 수 배 이상 증가시켜 데이터 부족 문제를 완화한다. 2) 음성 파형 대신 스펙트로그램 오토에코더를 활용하여 자기지도형 음성 표현을 예측함으로써, 긴 연속 음성 데이터의 모델링을 효율적으로 수행한다. 이러한 기법은 강력한 대조적 언어-음성 사전학습(CLAP) 표현과 결합되어, 주관적 및 객관적 기준 평가에서 최신 기술 수준의 성능을 달성한다. 또한 본 연구는 ‘모달리티를 하나도 소외시키지 않음(No Modality Left Behind)’의 철학 아래, X-to-Audio에 대한 제어 가능성과 일반화 능력을 처음으로 제시하며, 사용자가 정의한 모달리티 입력에 기반해 고해상도·고음질 음성을 생성할 수 있는 능력을 열었다. 음성 샘플은 https://Text-to-Audio.github.io 에서 확인할 수 있다.

Make-An-Audio: 프롬프트 강화된 확산 모델을 활용한 텍스트-오디오 생성 | 최신 연구 논문 | HyperAI초신경