2달 전

음악 이해 LLaMA: 질문 응답 및 캡셔닝을 활용한 텍스트-음악 생성의 발전

Liu, Shansong ; Hussain, Atin Sakkeer ; Sun, Chenshuo ; Shan, Ying
음악 이해 LLaMA: 질문 응답 및 캡셔닝을 활용한 텍스트-음악 생성의 발전
초록

텍스트-음악 생성(Text-to-Music Generation, T2M-Gen)은 대규모 공개 음악 데이터셋과 자연어 캡션의 부족으로 인해 주요 장애를 겪고 있습니다. 이를 해결하기 위해, 우리는 음악 관련 질문에 답하고 음악 파일의 캡션을 생성할 수 있는 Music Understanding LLaMA (MU-LLaMA)를 제안합니다. 우리의 모델은 사전 학습된 MERT 모델에서 오디오 표현을 활용하여 음악 특징을 추출합니다. 그러나, MU-LLaMA 모델을 훈련시키기 위한 적절한 데이터셋을 확보하는 것은 여전히 어려움이 따르는데, 기존의 공개 오디오 질문 답변 데이터셋들이 개방형 음악 질문 답변에 필요한 깊이가 부족하기 때문입니다. 이 간극을 메우기 위해, 우리는 기존 오디오 캡셔닝 데이터셋에서 질문-답변 쌍을 생성하는 방법론을 제시하며, 개방형 음악 관련 질문에 답하도록 설계된 MusicQA 데이터셋을 소개합니다. 실험 결과는 우리가 설계한 MusicQA 데이터셋으로 훈련된 MU-LLaMA 모델이 다양한 지표에서 음악 질문 답변과 음악 캡션 생성 모두에서 뛰어난 성능을 보임을 입증하며, 현재 최신 기술(state-of-the-art, SOTA) 모델들을 두 분야 모두에서 능가하고 T2M-Gen 연구 분야에서 유망한 발전 가능성을 제공함을 보여줍니다.

음악 이해 LLaMA: 질문 응답 및 캡셔닝을 활용한 텍스트-음악 생성의 발전 | 최신 연구 논문 | HyperAI초신경