2달 전

JEN-1: 텍스트 안내를 받는 옴니디렉셔널 확산 모델을 이용한 보편적 음악 생성

Li, Peike ; Chen, Boyu ; Yao, Yao ; Wang, Yikai ; Wang, Allen ; Wang, Alex

초록

음악 생성은 딥 제너레이티브 모델의 발전에 따라 점점 더 많은 관심을 받고 있습니다. 그러나 텍스트 설명을 기반으로 음악을 생성하는 작업, 즉 텍스트-음악 변환은 음악 구조의 복잡성과 높은 샘플링 속도 요구 사항 때문에 여전히 어려움을 겪고 있습니다. 이 작업의 중요성에도 불구하고, 현재의 주요 제너레이티브 모델들은 음악 품질, 계산 효율성, 그리고 일반화 측면에서 한계를 보이고 있습니다. 본 논문에서는 텍스트-음악 생성을 위한 보편적인 고해상도 모델인 JEN-1을 소개합니다. JEN-1은 자기 회귀적 및 비자기 회귀적 학습을 모두 통합한 확산 모델입니다. 컨텍스트 내 학습을 통해 JEN-1은 텍스트 안내형 음악 생성, 음악 인페인팅(音楽インペイント), 그리고 연속 생성 등 다양한 생성 작업을 수행할 수 있습니다. 평가 결과는 JEN-1이 텍스트-음악 일치성과 음악 품질 측면에서 최신 방법론보다 우수한 성능을 보임과 동시에 계산 효율성을 유지함을 입증하였습니다. 우리의 데모는 https://jenmusic.ai/audio-demos 에서 확인할 수 있습니다.注：为了保持专业性和准确性，"inpainting" 一词在韩文中没有完全对应的术语，因此保留了英文并加上了日文解释（音楽インペイント）。如果需要进一步调整，请告知。