2달 전

빠른 타이밍 조건부 잠재 오디오 확산

Evans, Zach ; Carr, CJ ; Taylor, Josiah ; Hawley, Scott H. ; Pons, Jordi

초록

텍스트 프롬프트를 사용하여 장형 44.1kHz 스테레오 오디오를 생성하는 것은 계산적으로 많은 부담을 줄 수 있습니다. 또한, 대부분의 이전 연구들은 음악과 사운드 효과가 자연스럽게 지속 시간이 다르다는 점을 다루지 않았습니다. 본 연구는 텍스트 프롬프트와 생성 모델을 사용하여 44.1kHz에서 장형이고 길이가 변하는 스테레오 음악과 사운드를 효율적으로 생성하는 데 초점을 맞추고 있습니다.Stable Audio는 잠재 확산(latent diffusion) 기반으로, 그 잠재 변수는 완전 합성곱 변분 오토인코더(fully-convolutional variational autoencoder)로 정의됩니다. 이 모델은 텍스트 프롬프트와 타이밍 임베딩(timing embeddings)에 조건부로 작동하여, 생성된 음악과 사운드의 내용과 길이를 세밀하게 제어할 수 있습니다. Stable Audio는 A100 GPU에서 8초 동안 최대 95초까지 44.1kHz의 스테레오 신호를 렌더링할 수 있으며, 계산 효율성과 빠른 추론 속도에도 불구하고 두 개의 공개 텍스트-음악 및 텍스트-오디오 벤치마크에서 최상위 성능을 보입니다. 특히, 최신 모델들과 달리 구조화된 음악과 스테레오 사운드를 생성할 수 있는 능력을 가지고 있습니다.