12일 전

잠재 확산을 활용한 장문 음악 생성

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
잠재 확산을 활용한 장문 음악 생성
초록

최근 들어 음악을 위한 음성 기반 생성 모델은 큰 발전을 이뤘지만, 아직까지는 일관된 음악 구조를 갖춘 전곡 길이의 음악 트랙을 생성하지 못하고 있었다. 본 연구에서는 장시간 시계열 컨텍스트를 기반으로 생성 모델을 훈련시킴으로써 최대 4분 45초에 이르는 장기 음악을 생성할 수 있음을 보여준다. 제안하는 모델은 매우 낮은 샘플링률(21.5Hz)을 갖는 연속적인 잠재 표현(latent representation)을 기반으로 작동하는 확산-트랜스포머(diffusion-transformer)로 구성되어 있다. 모델은 음질 및 프롬프트 일치도 측면에서 최신 기준 수준의 생성 성능을 달성하였으며, 주관적 평가 결과에서도 일관된 구조를 갖춘 전곡 길이의 음악을 효과적으로 생성함을 확인할 수 있었다.

잠재 확산을 활용한 장문 음악 생성 | 최신 연구 논문 | HyperAI초신경