17일 전

코디피드 오디오 언어 모델링은 음악 정보 검색을 위한 유용한 표현을 학습한다

Rodrigo Castellon, Chris Donahue, Percy Liang
코디피드 오디오 언어 모델링은 음악 정보 검색을 위한 유용한 표현을 학습한다
초록

우리는 코드화된(이산적으로 인코딩된) 음악 오디오로 사전 훈련된 언어 모델이 하류 MIR(음악 정보 검색) 작업에 유용한 표현을 학습함을 입증한다. 구체적으로, 100만 곡의 음악 오디오에서 코드화된 데이터를 기반으로 훈련된 언어 모델을 포함하는 음악 생성 시스템인 Jukebox(Dhariwal 등, 2020)의 표현을 탐구한다. Jukebox의 표현이 MIR 작업에 유용한 정보를 포함하는지 확인하기 위해, 이러한 표현을 입력 특징으로 하여 여러 MIR 작업에 대해 얕은 모델을 훈련시킨다. 전통적인 MIR 모델이 태깅 데이터를 기반으로 사전 훈련된 표현과 비교할 때, Jukebox의 표현을 입력 특징으로 사용하는 것이 태깅, 장르 분류, 감정 인식, 키 탐지 등 네 가지 MIR 작업에서 평균적으로 30% 더 높은 성능을 보였다. 특히 키 탐지 작업에서는 Jukebox의 표현이 태깅 기반 사전 훈련 모델의 표현보다 훨씬 우수한 성능을 나타내었으며, 이는 코드화된 오디오를 활용한 언어 모델링을 통한 사전 훈련이 기존 접근 방식의 약점을 보완할 수 있음을 시사한다. 이러한 결과를 바탕으로, 태그가 아닌 오디오 자체를 모델링함으로써 MIR에 더 풍부한 표현을 제공할 수 있음을 Jukebox 표현의 강력함을 통해 입증할 수 있다.