8일 전

커버 곡 식별을 위한 공동 표현 학습과 데이터 증강을 통한 WideResNet

{Tao Jiang, Weifeng Zhao, Lingcheng Kong, Wucheng Wang, Yiliang Jiang, JinHong Lu, Bin Zhang, Shichao Hu}
커버 곡 식별을 위한 공동 표현 학습과 데이터 증강을 통한 WideResNet
초록

커버 곡 식별(Cover Song Identification, CSI)은 음악 정보 검색(Music Information Retrieval, MIR) 분야에서 오랫동안 도전적인 과제이자 중요한 연구 주제로 여겨져 왔다. 최근 몇 년간 CSI 문제는 딥러닝 기법을 기반으로 광범위하게 연구되어 왔다. 본 논문에서는 다중 작업 학습(Multi-task Learning)의 아이디어를 차용한 공동 표현 학습(Joint Representation Learning) 방법을 기반으로 한 새로운 CSI 프레임워크를 제안한다. 구체적으로, WideResNet 기반의 커버 곡 모델을 최적화하기 위해 분류(classification)와 거리 측정 학습(metric learning)을 결합한 공동 학습 전략을 제안하며, 이를 LyraC-Net이라 명명한다. 분류 목적은 서로 다른 클래스 간의 분리 가능한 표현(embedding)을 학습하는 반면, 거리 측정 학습은 클래스 간 거리를 감소시키고 클래스 내 분리도를 증가시킴으로써 표현의 유사도를 최적화한다. 이러한 공동 최적화 전략은 단일 학습 목적을 가진 기존 방법보다 더 강력한 커버 곡 표현을 학습할 수 있을 것으로 기대된다. 거리 측정 학습을 위해 프로토타입 네트워크(Prototypical Network)를 도입하여 학습 과정의 안정성과 수렴 속도를 향상시키며, 트리플릿 손실(Triplet Loss)과 함께 활용한다. 또한, 음성 인식 분야에서 널리 사용되는 증강 기법인 SpecAugment을 도입하여 성능을 추가로 향상시켰다. 실험 결과, 제안하는 방법이 우수한 성능을 보이며, 최신의 다른 CSI 방법들보다 평가 결과에서 우수한 성과를 달성함을 확인하였다.