2달 전
효율적인 신경망 음악 생성
Lam, Max W. Y. ; Tian, Qiao ; Li, Tang ; Yin, Zongyu ; Feng, Siyuan ; Tu, Ming ; Ji, Yuliang ; Xia, Rui ; Ma, Mingbo ; Song, Xuchen ; Chen, Jitong ; Wang, Yuping ; Wang, Yuxuan

초록
최근 음악 생성 분야에서 최첨단 MusicLM이 크게 발전을 이끌었습니다. MusicLM은 의미, 중간 음향, 그리고 세부 음향 모델링을 위한 세 개의 언어 모델(LM) 계층으로 구성되어 있습니다. 그러나 MusicLM을 사용한 샘플링은 이러한 LM들을 차례대로 처리하여 세부 음향 토큰을 얻어야 하므로 계산 비용이 많이 들고 실시간 생성에는 제약이 됩니다. MusicLM과 동등한 품질로 효율적인 음악 생성은 여전히 큰 도전 과제입니다. 본 논문에서는 MeLoDy(음악(Music)의 M, 언어 모델(Language Model)의 L, 확산(Diffusion)의 D)라는 이름의 LM 안내형 확산 모델을 소개합니다. MeLoDy는 최상위 LM을 MusicLM에서 상속받아 의미 모델링에 활용하며, 새로운 듀얼 패스 확산(Dual-Path Diffusion, DPD) 모델과 오디오 VAE-GAN을 사용하여 조건부 의미 토큰을 효과적으로 웨이브폼으로 디코딩합니다. DPD는 각 노이즈 제거 단계에서 크로스 어텐션을 통해 의미 정보를 잠재 변수(latents)의 구간들에 효과적으로 통합하여 중간 및 세부 음향을 동시에 모델링하도록 설계되었습니다. 실험 결과는 MeLoDy가 샘플링 속도와 무한히 계속 가능한 생성 등의 실용적 장점뿐만 아니라 최첨단 수준의 음악성, 오디오 품질, 그리고 텍스트 연관성에서도 우수함을 입증하였습니다.샘플은 다음 링크에서 확인할 수 있습니다: https://Efficient-MeLoDy.github.io/.