
초록
최근 딥 러닝의 발전은 콘텐츠 기반 자동 음악 태깅 시스템의 개발을 가속화시켰습니다. 음악 정보 검색(MIR) 연구자들은 이 다중 레이블 이진 분류 작업에서 최고 수준의 결과를 달성하는 여러 아키텍처 설계를 제안하였습니다. 그러나 연구자들이 사용한 실험 설정, 예를 들어 다른 데이터셋 분할과 평가 소프트웨어 버전 등에 차이가 있어, 제안된 아키텍처들을 직접적으로 비교하기 어려웠습니다. 이러한 문제를 해결하고 향후 연구를 지원하기 위해, 본 논문에서는 세 가지 데이터셋(MagnaTagATune, Million Song Dataset, MTG-Jamendo)에서 다양한 음악 태깅 모델을 일관되게 평가하고 일반적인 평가 지표(ROC-AUC와 PR-AUC)를 사용하여 참조 결과를 제공합니다. 또한 모든 모델은 시간 스트레칭(time stretch), 피치 시프팅(pitch shift), 동적 범위 압축(dynamic range compression), 백색 노이즈 추가(addition of white noise) 등의 입력 변형에 대한 일반화 능력을 조사하기 위해 변형된 입력으로 평가되었습니다. 재현성을 위해 사전 학습된 모델과 함께 PyTorch 구현을 제공합니다.