2달 전

단순하고 제어 가능한 음악 생성

Copet, Jade ; Kreuk, Felix ; Gat, Itai ; Remez, Tal ; Kant, David ; Synnaeve, Gabriel ; Adi, Yossi ; Défossez, Alexandre

논문 세부 정보 보기

초록

우리는 조건부 음악 생성 작업에 착수하였습니다. MusicGen을 소개하는데, 이는 여러 개의 압축된 이산 음악 표현 스트림, 즉 토큰 위에서 작동하는 단일 언어 모델(LM)입니다. 기존 연구와 달리, MusicGen은 단일 스테이지 트랜스포머 언어 모델과 효율적인 토큰 교차 패턴으로 구성되어 있어, 계층적으로 또는 업샘플링을 통해 여러 모델을 연결할 필요가 없습니다. 이러한 접근 방식을 따르면, MusicGen이 텍스트 설명이나 멜로디 특징에 조건부로 고품질의 모노 및 스테레오 샘플을 생성할 수 있음을 보여줍니다. 이를 통해 생성된 출력에 대한 더 나은 제어가 가능하게 됩니다. 우리는 자동 평가와 인간 평가를 포함한 광범위한 실증적 평가를 수행하여, 제안된 접근 방식이 표준 텍스트-음악 벤치마크에서 평가된 기준모델들보다 우수함을 입증하였습니다. 아바케이션 연구를 통해 MusicGen을 구성하는 각 요소의 중요성을 밝혔습니다. 음악 샘플, 코드 및 모델은 https://github.com/facebookresearch/audiocraft 에서 제공됩니다.