17일 전

경량화된 장비 무관형 모델을 통한 다성음 노트 변환 및 다음주율 추정

Rachel M. Bittner, Juan José Bosch, David Rubinstein, Gabriel Meseguer-Brocal, Sebastian Ewert
경량화된 장비 무관형 모델을 통한 다성음 노트 변환 및 다음주율 추정
초록

자동 음악 변환(Automatic Music Transcription, AMT)은 다양한 응용 분야에서 핵심적 기반 기술로 인식되고 있다. 이 작업의 복잡성에 비추어 볼 때, 일반적으로 특정 설정에 집중한 시스템에서 최고의 성능이 보고되고 있다. 예를 들어, 특정 악기 전용 시스템은 일반적인 악기 무관(악기 독립적) 방법보다 더 높은 성능을 보인다. 마찬가지로, 노트 이벤트 탐지보다 더 어려운 문제이므로 프레임 단위의 주파수 값($f_0$)만 추정하고 노트 이벤트 탐지 과정을 생략할 경우 더 높은 정확도를 달성할 수 있다. 그러나 이러한 전문화된 시스템은 실세계 환경에서 쉽게 적용되기 어렵다. 저장 공간과 네트워크 제약으로 인해 여러 전용 모델을 동시에 사용하는 것이 불가능하며, 메모리 및 실행 시간 제약으로 인해 모델의 복잡성도 제한된다. 본 논문에서는 다성분 음악 악기 변환을 지원하고 다양한 악기(보컬 포함)에 대해 일반화 가능한 경량 신경망을 제안한다. 제안된 모델은 프레임 단위의 음악 시작점(onset), 다중 주파수(multipitch), 노트 활성화를 동시에 예측하도록 학습되며, 실험적으로 이러한 다중 출력 구조가 프레임 수준의 노트 정확도 향상에 기여함을 입증한다. 단순한 구조임에도 불구하고 벤치마크 결과에서 제안된 시스템은 유사한 기준 대비 노트 추정 성능이 현저히 뛰어나며, 프레임 수준 정확도는 전문적인 최신 AMT 시스템과 비교해 거의 차이가 없음을 보였다. 본 연구를 통해 연구 공동체가 저자원 환경에서 작동 가능한 악기 무관형 AMT 시스템에 대한 추가적인 연구를 촉진하기를 기대한다.