2달 전

MeLFusion: 이미지와 언어 힌트를 사용한 확산 모델을 통한 음악 합성

Chowdhury, Sanjoy ; Nag, Sayan ; Joseph, K J ; Srinivasan, Balaji Vasan ; Manocha, Dinesh
MeLFusion: 이미지와 언어 힌트를 사용한 확산 모델을 통한 음악 합성
초록

음악은 감정과 느낌을 전달할 수 있는 보편적인 언어입니다. 음악은 영화에서 소셜 미디어 게시물에 이르기까지 창의적 미디어의 전체 스펙트럼에서 중요한 부분을 차지하고 있습니다. 음악을 합성하는 머신 러닝 모델들은 주로 그 음악에 대한 텍스트 설명에 기반하여 조건부로 학습됩니다. 음악가들이 영화 대본뿐만 아니라 시각화를 통해 음악을 작곡함에 착안하여, 우리는 텍스트 설명과 해당 이미지를 효과적으로 활용하여 음악을 합성할 수 있는 MeLFusion 모델을 제안합니다. MeLFusion은 새로운 "시각 신경" (visual synapse) 기능을 갖춘 텍스트-음악 확산 모델로, 시각적 모드에서 의미론적 정보를 생성된 음악으로 효과적으로 융합합니다. 이 분야의 연구를 촉진하기 위해, 우리는 새로운 데이터셋인 MeLBench와 새로운 평가 지표인 IMSM을 소개합니다. 우리의 철저한 실험 평가는 시각 정보를 음악 합성 파이프라인에 추가하면 생성된 음악의 품질이 객관적 및 주관적으로 크게 향상됨을 입증하며, FAD 점수에서 최대 67.98%의 상대적인 개선 효과를 보였습니다. 우리는 본 연구가 실용적이면서도 상대적으로 덜 탐구된 이 연구 영역에 관심을 집중시키기를 바랍니다.

MeLFusion: 이미지와 언어 힌트를 사용한 확산 모델을 통한 음악 합성 | 최신 연구 논문 | HyperAI초신경