HyperAI초신경
18일 전

SonicVerse: 음악 특성 정보를 활용한 다중 작업 학습

Chopra, Anuradha ; Roy, Abhinaba ; Herremans, Dorien
SonicVerse: 음악 특성 정보를 활용한 다중 작업 학습
초록

음악 작품의 특성을 정확히 반영하는 상세한 캡션은 음악 데이터베이스를 풍부하게 만들고 음악 AI 연구를 진전시키는 데 기여할 수 있습니다. 본 논문에서는 저수준 음향 세부사항과 고수준 음악적 속성을 직접 포착하기 위해 키 검출, 보컬 검출 등의 보조 음악 특성 검출 작업을 통합한 다중 작업 음악 캡셔닝 모델인 SonicVerse를 소개합니다. 주요 기여점은 오디오 입력을 언어 토큰으로 변환하면서 전용 보조 헤드를 통해 음악 특성을 동시에 감지하는 투영 기반 아키텍처입니다. 이들 헤드의 출력도 언어 토큰으로 투영되어 캡션 생성 입력을 강화합니다. 이 프레임워크는 짧은 음악 조각에 대한 풍부하고 설명적인 캡션을 생성할 뿐 아니라, 대형 언어 모델을 사용하여 출력을 연결함으로써 긴 음악 작품에 대한 시간 정보가 포함된 상세한 설명을 직접 생성할 수 있게 합니다. 모델 학습을 위해 MIRFLEX(모듈러 음악 특성 추출기)를 사용하여 MusicBench 데이터셋에 음악 특성을 주석 처리하여 오디오, 캡션 및 음악 특성 데이터가 짝을 이루도록 확장했습니다. 실험 결과, 이러한 방식으로 특성을 통합하면 생성된 캡션의 질과 세부 사항이 개선됨을 보여주었습니다.