MT3: 다중 작업 다트랙 음악 트랜스크립션

자동 음악 전사(Automatic Music Transcription, AMT)는 원시 오디오에서 음악 노트를 추론하는 것으로, 음악 이해의 핵심적인 과제 중 하나입니다. 자동 음성 인식(Automatic Speech Recognition, ASR)이 일반적으로 단일 화자의 말을 중심으로 하는 것과 달리, AMT는 종종 여러 악기를 동시에 전사해야 하며, 이때 미세한 피치와 타이밍 정보를 보존해야 합니다. 또한 많은 AMT 데이터셋은 '저자원' 상태에 있으며, 전문 음악가들조차도 음악 전사를 어렵고 시간이 많이 걸리는 작업으로 여깁니다. 따라서 이전 연구에서는 각각의 작업에 맞게 개별 악기용 아키텍처를 설계하는 데 초점을 맞추었습니다. 본 연구에서는 저자원 자연어 처리(Natural Language Processing, NLP)에서 시퀀스-투-시퀀스 전이 학습의 유망한 결과에 착안하여, 일반적인 목적의 트랜스포머 모델이 다중 작업 AMT를 수행할 수 있음을 입증합니다. 이 모델은 여러 전사 데이터셋에서 임의의 악기 조합을 공동으로 전사할 수 있습니다. 우리는 이 통합된 훈련 프레임워크가 다양한 데이터셋에서 고품질의 전사 결과를 달성하며, 저자원 악기(예: 기타)의 성능을 크게 향상시키면서도 풍부한 악기(예: 피아노)에 대한 강력한 성능을 유지함을 보여줍니다. 마지막으로, AMT의 범위를 확장함으로써 일관된 평가 지표와 더 나은 데이터셋 정렬의 필요성을 드러내고, 이 새로운 다중 작업 AMT 방향에 대한 강력한 기준선을 제공합니다.