2달 전

QA-MDT: 품질 인식 마스킹 확산 변환기(Quality-aware Masked Diffusion Transformer)를 이용한 개선된 음악 생성

Li, Chang ; Wang, Ruoyu ; Liu, Lijuan ; Du, Jun ; Sun, Yixuan ; Guo, Zilu ; Zhang, Zhenrong ; Jiang, Yuan ; Gao, Jianqing ; Ma, Feng
QA-MDT: 품질 인식 마스킹 확산 변환기(Quality-aware Masked Diffusion Transformer)를 이용한 개선된 음악 생성
초록

텍스트-투-뮤직(TTM) 생성은 텍스트 설명을 오디오로 변환하여 멀티미디어 창작에 혁신적인 방향을 제시합니다. 이 과정에서 높은 품질과 다양성을 달성하기 위해서는 대규모의 고품질 데이터가 필요하지만, 종종 사용 가능한 데이터셋에서는 이러한 데이터가 부족합니다. 대부분의 오픈 소스 데이터셋은 저품질 웨이브폼과 낮은 텍스트-오디오 일관성 등의 문제를 겪고 있어 음악 생성 모델의 발전을 저해하고 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 대규모 품질 불균형 데이터셋으로부터 고품질이고 높은 음악성이 있는 음악을 생성하기 위한 새로운 품질 인식 학습 패러다임을 제안합니다. 또한, 음악 신호의 잠재 공간에서 고유한 특성을 활용하여 마스크된 확산 트랜스포머(MDT) 모델을 TTM 작업에 적응시키고 구현하여, 그 품질 관리와 강화된 음악성 측면에서 능력을 입증하였습니다. 더불어, 낮은 품질의 캡션 문제를 해결하기 위해 세 단계 캡션 정제 접근법을 소개합니다. 실험 결과, MusicCaps와 Song-Describer Dataset 등 벤치마크 데이터셋에서 객관적 및 주관적 지표 모두 최상의 성능(SOTA)을 보였습니다. 데모 오디오 샘플은 https://qa-mdt.github.io/에서 확인할 수 있으며, 코드와 사전 학습된 체크포인트는 https://github.com/ivcylc/OpenMusic에서 오픈 소스로 제공됩니다.

QA-MDT: 품질 인식 마스킹 확산 변환기(Quality-aware Masked Diffusion Transformer)를 이용한 개선된 음악 생성 | 최신 연구 논문 | HyperAI초신경