2달 전
Noise2Music: 텍스트 조건부 확산 모델을 이용한 음악 생성
Huang, Qingqing ; Park, Daniel S. ; Wang, Tao ; Denk, Timo I. ; Ly, Andy ; Chen, Nanxin ; Zhang, Zhengdong ; Zhang, Zhishuai ; Yu, Jiahui ; Frank, Christian ; Engel, Jesse ; Le, Quoc V. ; Chan, William ; Chen, Zhifeng ; Han, Wei

초록
우리는 Noise2Music을 소개합니다. 이 시스템은 텍스트 프롬프트로부터 고품질의 30초 음악 클립을 생성하기 위해 일련의 확산 모델을 훈련시킵니다. 두 가지 유형의 확산 모델, 즉 텍스트에 조건부로 중간 표현을 생성하는 생성자 모델과 중간 표현 및 필요에 따라 텍스트에 조건부로 고품질 오디오를 생성하는 캐스케이더 모델이 연속적으로 훈련되어 사용됩니다. 우리는 중간 표현에 대한 두 가지 옵션을 탐색합니다. 하나는 스펙트로그램을 사용하고 다른 하나는 낮은 품질의 오디오를 사용합니다. 우리는 생성된 오디오가 장르, 템포, 악기, 분위기, 시대 등 프롬프트의 핵심 요소를 충실하게 반영할 뿐만 아니라 프롬프트의 세부 의미까지 구현할 수 있음을 발견했습니다. 사전 훈련된 대형 언어 모델이 이 과정에서 중요한 역할을 합니다. 이러한 모델들은 훈련 세트의 오디오에 대한 짝짓기된 텍스트를 생성하고, 확산 모델이 처리하는 텍스트 프롬프트의 임베딩을 추출하는 데 사용됩니다.생성 예제: https://google-research.github.io/noise2music