
딥 러닝은 음악의 여러 영역에서 큰 발전을 이끌어냈지만, 라벨이 부착된 음악 데이터셋을 생성하는 것은 여전히 어려우며 비용과 시간이 많이 소요됩니다. 본 연구에서는 SimCLR을 음악 분야에 도입하고, 오디오 데이터 증강의 대규모 체인을 기여하여 음악 표현의 자기 감독적, 대조적 학습을 위한 간단한 프레임워크인 CLMR를 제안합니다. 이 접근 방식은 원시 시간 영역 음악 데이터를 사용하며 유용한 표현을 학습하기 위해 라벨이 필요하지 않습니다. 우리는 MagnaTagATune 및 Million Song 데이터셋에서 음악 분류라는 하위 작업으로 CLMR을 평가하고, SimCLR에 대한 우리의 음악 관련 혁신 중 어떤 것이 가장 효과적인지 검증하기 위한 축소 실험(ablation study) 결과를 제시합니다. 제안된 표현을 사용하여 훈련된 선형 분류기는 MagnaTagATune 데이터셋에서 지도 학습 모델보다 더 높은 평균 정밀도를 달성하였으며, Million Song 데이터셋에서는 유사한 성능을 보였습니다. 또한, CLMR의 표현이 외부 도메인 데이터셋에서도 전송 가능함을 보여주어 우리의 방법이 음악 분류에서 강력한 일반화 능력을 가지고 있음을 시사합니다. 마지막으로, 제안된 방법이 작은 규모의 라벨이 부착된 데이터셋에서도 효율적으로 학습할 수 있음을 입증하였습니다: 선형 평가 과정에서 MagnaTagATune 데이터셋의 단 259개(전체 데이터셋의 1%) 라벨이 부착된 노래만 사용해도 33.1%의 평균 정밀도를 달성하였습니다. 재현성과 음악 분야에서 자기 감독적 학습에 대한 미래 연구를 촉진하기 위해, 본 논문의 모든 실험에 대한 사전 훈련 모델과 소스 코드를 공개적으로 배포합니다.