11일 전
퍼뮤테이션 불변 언어 모델을 이용한 심포니 생성
Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, Maosong Sun

초록
본 연구에서는 기호적 심포니 음악 생성을 위한 해결책으로 순열 불변 언어 모델인 SymphonyNet을 제안한다. 우리는 심포니 음악을 위한 새로운 다트랙 다악기 반복 가능(Multi-track Multi-instrument Repeatable, MMR) 표현 방식을 제안하고, 특정 3차원 위치 인코딩을 갖춘 Transformer 기반의 자동 회귀 언어 모델을 사용하여 음악 시퀀스를 모델링한다. 특히, 초장기 심포니 토큰을 모델링할 때 발생하는 길이 오버플로우 문제를 해결하기 위해 음악 토큰을 위한 수정된 바이트 쌍 인코딩 알고리즘(Music BPE)을 제안하고, 새로운 선형 트랜스포머 디코더 아키텍처를 핵심 구성 요소로 도입한다. 또한 입력에서 악기 정보를 마스킹함으로써 자동 오케스트레이션을 공동 작업으로 학습하도록 디코더를 훈련시킨다. 더불어 심포니 음악 생성 연구의 발전을 위해 대규모 기호적 심포니 데이터셋을 소개한다. 실험 결과는 제안된 방법이 일관성 있고, 새로운, 복잡하며 조화로운 심포니 음악을 생성할 수 있음을 보여주며, 다트랙 다악기 기호 음악 생성 분야에서 선도적인 솔루션으로서의 가능성을 입증한다.