12일 전
잠재 확산을 활용한 장문 음악 생성
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

초록
최근 들어 음악을 위한 음성 기반 생성 모델은 큰 발전을 이뤘지만, 아직까지는 일관된 음악 구조를 갖춘 전곡 길이의 음악 트랙을 생성하지 못하고 있었다. 본 연구에서는 장시간 시계열 컨텍스트를 기반으로 생성 모델을 훈련시킴으로써 최대 4분 45초에 이르는 장기 음악을 생성할 수 있음을 보여준다. 제안하는 모델은 매우 낮은 샘플링률(21.5Hz)을 갖는 연속적인 잠재 표현(latent representation)을 기반으로 작동하는 확산-트랜스포머(diffusion-transformer)로 구성되어 있다. 모델은 음질 및 프롬프트 일치도 측면에서 최신 기준 수준의 생성 성능을 달성하였으며, 주관적 평가 결과에서도 일관된 구조를 갖춘 전곡 길이의 음악을 효과적으로 생성함을 확인할 수 있었다.