Pedal을 고려한 고해상도 피아노 전사: 시작 및 종료 시각 회귀 기반 접근

자동 음악 변환(Automatic Music Transcription, AMT)은 오디오 녹음을 기호적 표현으로 변환하는 작업이다. 최근 신경망 기반의 방법이 AMT에 적용되면서 최첨단 성과를 달성하고 있다. 그러나 이전의 많은 시스템은 프레임 단위로 음의 시작( onset)과 종료( offset)를 탐지하는 방식에 그치며, 이로 인해 변환 해상도가 프레임 간격(frame hop size)에 제한된다. 또한, 학습을 위해 음의 시작과 종료 타겟을 인코딩하는 다양한 전략에 관한 연구는 여전히 부족한 실정이다. 더불어 기존의 AMT 시스템은 오디오 녹음에서 시작 및 종료 레이블이 정렬되지 않았을 경우에 매우 민감하게 반응한다. 게다가 대규모 데이터셋에서 지속 페달(sustain pedal) 변환에 관한 연구는 여전히 제한적이다. 본 논문에서는 피아노 음의 정확한 시작 및 종료 시각을 회귀(regressing)하는 방식으로 고해상도 AMT 시스템을 제안한다. 추론 단계에서는 피아노 음 및 페달 이벤트의 정확한 시작 및 종료 시각을 해석적으로 계산하는 알고리즘을 제안한다. 제안한 시스템이 이전 시스템에 비해 시작 및 종료 레이블의 불일치에 대해 더 뛰어난 내구성을 보임을 입증한다. MAESTRO 데이터셋에서 본 시스템은 시작 F1 점수 96.72%를 기록하여 이전의 시작 및 프레임 기반 시스템(94.80%)을 상회한다. 또한 페달 시작 F1 점수 91.86%를 달성하여 MAESTRO 데이터셋에서 최초의 벤치마크 성과를 기록한다. 본 연구의 소스 코드 및 체크포인트는 https://github.com/bytedance/piano_transcription 에 공개하였다.