2달 전
MusicLM: 텍스트에서 음악 생성하기
Agostinelli, Andrea ; Denk, Timo I. ; Borsos, Zalán ; Engel, Jesse ; Verzetti, Mauro ; Caillon, Antoine ; Huang, Qingqing ; Jansen, Aren ; Roberts, Adam ; Tagliasacchi, Marco ; Sharifi, Matt ; Zeghidour, Neil ; Frank, Christian

초록
우리는 텍스트 설명으로부터 고음질 음악을 생성하는 모델인 MusicLM을 소개합니다. 예를 들어 "왜곡된 기타 리프에 뒷받침된 진정한 바이올린 멜로디"와 같은 설명을 기반으로 음악을 생성할 수 있습니다. MusicLM은 조건부 음악 생성 과정을 계층적 시퀀스-투-시퀀스 모델링 작업으로 정의하며, 24 kHz의 샘플링 속도로 몇 분 동안 일관성 있는 음악을 생성합니다. 우리의 실험 결과는 MusicLM이 오디오 품질과 텍스트 설명에 대한 부합 측면에서 이전 시스템들을 능가함을 보여줍니다. 또한, MusicLM이 텍스트와 멜로디 모두를 조건으로 사용하여 휘파람이나 노래 부르기 형태의 멜로디를 텍스트 캡션에서 설명된 스타일에 맞게 변환할 수 있음을 입증하였습니다. 미래 연구를 지원하기 위해, 우리는 인간 전문가들이 제공한 풍부한 텍스트 설명을 포함한 5,500개의 음악-텍스트 쌍으로 구성된 데이터셋인 MusicCaps를 공개적으로 배포합니다.