18일 전

프레임 수준을 건너뛰기: 신경형 반-CRF를 활용한 이벤트 기반 피아노 전사

{Zhiyao Duan, Frank Cwitkowitz, Yujia Yan}
프레임 수준을 건너뛰기: 신경형 반-CRF를 활용한 이벤트 기반 피아노 전사
초록

피아노 전사 시스템은 일반적으로 오디오의 각 프레임에서 음높이 활성도를 추정하도록 최적화되어 있다. 이러한 시스템은 보통 프레임 수준의 예측에서 노트 이벤트를 추정하기 위해 정교하게 설계된 히우리스틱 및 후처리 알고리즘이 뒤따른다. 최근의 방법들은 또한 피아노 전사를 다중 작업 학습(multi-task learning) 문제로 재정의하여, 노트 이벤트의 각 단계(예: 시작, 지속, 종료)의 활성화를 독립적으로 추정하는 접근법을 제안했다. 그러나 이러한 접근 방식은 작업의 본질적인 목표와 잘 부합하지 않는다. 즉, 노트 이벤트를 단일한 통합된 사건으로서 구체화하는 것이 아니라, 서로 분리된 프레임 수준의 관측치를 합산하는 방식으로 접근하기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위해, 노트 이벤트를 직접 예측하도록 최적화된 새로운 피아노 전사 공식을 제안한다. 제안하는 방법은 반-마르코프 조건부 확률 필드(Semi-Markov Conditional Random Fields, semi-CRF)를 기반으로 하며, 개별 프레임이 아니라 구간(interval)에 대한 점수를 출력한다. 이러한 방식으로 피아노 전사를 재정의함으로써, 노트 이벤트의 각 단계에 대한 분리된 프레임 수준의 추정에 의존할 필요성을 제거할 수 있다. 우리는 MAESTRO 데이터셋에서 실험을 수행하여 제안 모델이 현재까지의 최고 성능 기준을 초과함을 입증하였다. 결과적으로, semi-CRF 출력층은 여전히 복잡도가 이차적(quadratic)이지만, 이벤트 기반 예측에 있어 간단하고 빠르며 뛰어난 성능을 보이는 솔루션임을 시사한다. 이는 현재 프레임 수준 추정에 의존하고 있는 다른 분야에서도 유사한 성공을 이끌 수 있을 것으로 기대된다.