2달 전

오디오, 텍스트, 이미지를 활용한 딥 피처를 이용한 다중 레이블 음악 장르 분류

Sergio Oramas; Oriol Nieto; Francesco Barbieri; Xavier Serra
오디오, 텍스트, 이미지를 활용한 딥 피처를 이용한 다중 레이블 음악 장르 분류
초록

음악 장르는 공통적인 특성을 가진 음악 항목들을 분류하는 데 사용됩니다. 이러한 범주는 상호 배타적이지 않지만, 대부분의 관련 연구는 전통적으로 트랙을 단일 클래스로 분류하는 데 초점을 맞추고 있습니다. 또한 이러한 범주(예: 팝, 록)는 특정 응용 프로그램에 있어서 너무 넓을 수 있습니다. 본 연구에서는 이 작업을 확장하여 세 가지 다른 데이터 모드(오디오, 텍스트, 이미지)를 사용하여 음악 항목들을 다중 및 세부 라벨로 분류하고자 합니다. 이를 위해 250개의 장르 클래스로 분류된 31,000개 이상의 앨범을 포함하는 새로운 데이터셋인 무무(MuMu)를 제시합니다. 각 앨범에 대해 커버 이미지, 텍스트 리뷰, 오디오 트랙을 수집하였습니다. 또한 최신 딥러닝 방법론으로 학습된 특성 임베딩의 조합을 기반으로 한 다중 라벨 장르 분류 접근법을 제안합니다. 실험 결과는 모달리티 간에 큰 차이가 있음을 보여주며, 이는 단순히 새로운 기준점만 제공하는 것이 아니라 모달리티를 결합하면 성능이 개선됨을 시사합니다.

오디오, 텍스트, 이미지를 활용한 딥 피처를 이용한 다중 레이블 음악 장르 분류 | 최신 연구 논문 | HyperAI초신경