
초록
버전 식별(VI) 작업은 동일한 기본 음악 작품에 해당하는 녹음을 자동으로 감지하는 문제를 다룹니다. 많은 노력에도 불구하고, VI는 여전히 개선의 여지가 많은 열린 문제입니다, 특히 정확성과 확장성의 결합 측면에서 그렇습니다. 본 논문에서는 정확하고 확장 가능한 버전 식별을 위한 음악적으로 동기 부여된 방법인 MOVE를 제시합니다. MOVE는 트리플트 손실과 어려운 트리플트 채굴 전략을 사용하여 유클리드 거리 공간에서 확장 가능한 임베딩을 학습함으로써 두 개의 공개 벤치마크 세트에서 최고 수준의 성능을 달성합니다. 이 방법은 대안적인 입력 표현을 사용하고, 시간적 내용 요약 기술, 표준화된 잠재 공간, 그리고 VI에 특별히 설계된 데이터 증강 전략을 도입하여 이전 연구보다 향상되었습니다. 주요 결과 외에도, 우리는 우리의 설계 선택의 중요성을 강조하기 위해 절제 연구(ablation study)를 수행하였으며, 임베딩 차원과 모델 성능 간의 관계를 조사하였습니다.