Mustango: 제어 가능한 텍스트-음악 생성을 위한 연구

최근 확산 모델의 발전으로 텍스트-음악 변환 모델의 품질이 새로운 수준에 도달했습니다. 그러나 다양한 음악적 요소의 제어 가능성은 거의 탐구되지 않았습니다. 본 논문에서는 Mustango를 제안합니다: 이는 확산 기반으로 음악 영역 지식을 활용한 텍스트-음악 시스템입니다. Mustango는 일반적인 텍스트 캡션뿐만 아니라, 화성, 리듬, 템포, 키와 관련된 구체적인 지시사항을 포함할 수 있는 더 풍부한 캡션을 통해 생성된 음악을 제어하는 것을 목표로 합니다. Mustango의 핵심은 MuNet으로, 이는 음악 영역 지식을 반영한 UNet 안내 모듈입니다. MuNet은 역확산 과정에서 일반적인 텍스트 임베딩과 함께 텍스트 프롬프트에서 예측한 음악 특유의 조건들을 포함시키도록 생성된 음악을 안내합니다.텍스트 캡션이 있는 음악 데이터셋의 한정된 접근성을 극복하기 위해, 우리는 조화, 리듬, 동적 요소를 변경하고 최신 음악 정보 검색(Music Information Retrieval) 방법을 사용하여 음악 특성을 추출하여 이를 기존 설명에 텍스트 형식으로 추가하는 새로운 데이터 증강 방법을 제안합니다. 이를 통해 생성된 MusicBench 데이터셋은 52,000개 이상의 인스턴스를 포함하며, 캡션 텍스트에 음악 이론 기반 설명이 포함되어 있습니다.다양한 실험을 통해 Mustango가 생성하는 음악의 품질이 최고 수준임을 보여주며, 음악 특유의 텍스트 프롬프트를 통한 제어 가능성이 MusicGen 및 AudioLDM2와 같은 다른 모델들보다 크게 우수함을 입증하였습니다.