2달 전
데이터 기반의 강건한 자동 피아노 악보 변환 분석
Drew Edwards; Simon Dixon; Emmanouil Benetos; Akira Maezawa; Yuta Kusaka

초록
최근几年,자동 피아노 전사 알고리즘이 새로운 데이터셋과 모델링 기법 덕분에 크게 발전했습니다. 최근의 연구는 주로 Transformer와 Perceiver 등의 새로운 신경망 구조를 적용하여 더욱 정확한 시스템을 개발하는 데 초점을 맞추고 있습니다. 본 연구에서는 이러한 전사 시스템들의 학습 데이터 관점에서 접근하였습니다. 분포 외(out-of-distribution) 주석이 달린 피아노 데이터에서의 성능을 측정함으로써, 이 모델들이 학습 데이터의 음향 특성에 심각하게 과적합(overfit)될 수 있음을 보여주었습니다. 우리는 Yamaha Disklavier 재생을 통해 전문 스튜디오 녹음 환경에서 자동으로 캡처된 새로운 오디오 세트를 MAESTRO 데이터셋에 추가하였습니다. 원래 MAESTRO 데이터셋과 재연주(re-performed) 버전을 사용하여 다양한 데이터 증강 기법을 적용한 결과, MAPS 데이터셋에서 88.4 F1 점수의 최고 수준의 노트 온셋(note-onset) 정확도를 달성하였으며, 이 과정에서 MAPS 데이터셋의 학습 데이터를 전혀 사용하지 않았습니다. 이후, 일련의 제거 실험(ablation studies)을 통해 이러한 데이터 증강 기법이 결과 모델에 미치는 영향을 더 잘 이해하기 위해 분석하였습니다.