Jointist: 다중 악기 전사 및 그 응용을 위한 공동 학습

본 논문에서는 Jointist를 소개합니다. Jointist는 오디오 클립에서 여러 악기를 전사(transcribing), 인식(recognizing), 분리(separating)할 수 있는 악기 인식 기능을 갖춘 다중 악기 프레임워크입니다. Jointist는 다른 모듈들을 조건부로 제어하는 악기 인식 모듈, 악기별 피아노 롤을 출력하는 전사 모듈, 그리고 악기 정보와 전사 결과를 활용하는 소스 분리 모듈로 구성되어 있습니다.악기 조건부 기능은 명시적인 다중 악기 기능을 위해 설계되었으며, 전사 모듈과 소스 분리 모듈 간의 연결은 더 나은 전사 성능을 위해 마련되었습니다. 현대 대중음악이 일반적으로 여러 악기를 포함하고 있다는 점을 고려하면, 우리의 도전적인 문제 설정은 이 모델이 실제 세계에서 매우 유용하게 사용될 수 있음을 시사합니다. 그러나 이 모델의 혁신성은 새로운 평가 관점을 필요로 합니다. 실험 과정에서 우리는 다양한 측면에서 모델을 평가하여 다중 악기 전사를 위한 새로운 평가 관점을 제공하였습니다.또한 우리는 전사 모델이 다른 음악 분석 작업의 사전 처리(preprocessing) 모듈로서 활용될 수 있다고 주장합니다. 여러 하류 작업에 대한 실험에서, 우리의 전사 모델이 제공하는 기호(symbolic) 표현이 스펙트로그램(spectrograms)보다 다운비트 감지(downbeat detection), 화음 인식(chord recognition), 키 추정(key estimation) 등의 작업에 도움이 되었음을 확인하였습니다.