2달 전

음악을 연주하는 FLUX

Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

초록

본 논문은 텍스트-음악 생성을 위한 트랜스포머 확장 모델인 FluxMusic을 탐구합니다. 일반적으로, 고급 Flux 모델 설계와 함께 이를 멜 스펙트럼의 잠재 VAE 공간으로 전환합니다. 이 과정은 먼저 독립적인 어텐션을 텍스트-음악 스트림에 적용한 후, 노이즈 제거 패치 예측을 위한 단일 음악 스트림을 쌓는 것을 포함합니다. 우리는 여러 개의 사전 학습된 텍스트 인코더를 사용하여 캡션의 의미 정보를 충분히 포착하고 추론 유연성을 높입니다. 중간 과정에서는 시간 단계 임베딩과 함께 거친 텍스트 정보가 변조 메커니즘에서 활용되며, 세부적인 텍스트 정보는 음악 패치 시퀀스와 결합되어 입력으로 사용됩니다. 깊이 있는 연구를 통해 최적화된 아키텍처로 교정된 흐름 학습이 기존 확산 방법보다 텍스트-음악 작업에서 크게 우수함을 다양한 자동 메트릭과 인간 선호 평가 결과로 입증하였습니다. 우리의 실험 데이터, 코드 및 모델 가중치는 다음과 같은 공개 저장소에서 이용 가능합니다: https://github.com/feizc/FluxMusic.