
초록
커버 송 식별은 음악 정보 검색(MIR) 분야에서 복잡한 음악적 변형으로 인해 어려운 과제를 나타냅니다. 이전 연구들은 일반적으로 이 과제를 위해 수작업 특성과 맞춤 알고리즘을 활용했습니다. 최근에는 신경망 접근법을 사용하여 더욱 큰 진전을 이루었습니다. 본 논문에서는 커버 송 과제의 특성을 바탕으로 새로운 합성곱 신경망(CNN) 구조를 제안합니다. 먼저 분류 전략을 통해 네트워크를 훈련시키고, 그 다음에 이 네트워크를 커버 송 식별을 위한 음악 표현 추출에 사용합니다. 또한 템포 변화에 견디는 강건한 모델을 훈련시키기 위한 방안이 설계되었습니다. 실험 결과, 우리의 접근법은 모든 공개 데이터셋에서 기존 최신 방법들을 능가하며, 특히 대규모 데이터셋에서 성능 개선이 두드러졌습니다.