
초록
본 논문은 깊은 신경망을 사용하여 다성음악의 순차 모델링을 탐구합니다. 최근의 연구 성과는 주로 네트워크 구조에 초점을 맞추었지만, 우리는 검증 세트 손실을 기준으로 측정할 때 순차 표현이 모델의 성능에 동등하게 중요한 역할을 할 수 있다는 점을 입증합니다. 훈련 데이터셋에 내재된 주요 특성을 추출함으로써, 모델은 이러한 특성에 조건부로 학습될 수 있으며, 또는 모델링 중인 시퀀스의 추가 구성 요소로서 이러한 특성을 예측하도록 학습될 수 있습니다. 우리는 추가 특성이 포함된 보다 복잡한 시퀀스를 예측하도록 신경망을 학습시키면 전체 모델 성능이 크게 향상될 수 있음을 보여줍니다. 먼저, 주어진 시간 단계에서 먼저 화음(Chord)을 예측하고 그 다음에 해당 시간 단계에서 각 음성(Voice)의 음표(Note)를 예측하도록 GRU 기반으로 설계된 TonicNet 모델을 소개합니다. 이는 일반적으로 음표만 예측하는 접근 방식과 대조됩니다. 그런 다음, TonicNet을 표준적인 JSB Chorales 데이터셋에서 평가하여 최신 연구 결과를 얻었습니다.