2달 전

CoverHunter: 정교한 주의력과 정렬을 활용한 커버곡 식별

Feng Liu; Deyi Tuo; Yinan Xu; Xintong Han
CoverHunter: 정교한 주의력과 정렬을 활용한 커버곡 식별
초록

요약: 커버 송 식별(CSI)은 쿼리 트랙이 주어졌을 때 참조 앵커에서 다른 버전의 같은 음악을 찾는 것을 목표로 합니다. 본 논문에서는 기존 검출 방식의 단점을 극복하기 위해 보다 풍부한 특징과 정교한 주의 및 정렬을 탐색하는 새로운 시스템인 CoverHunter를 제안합니다. CoverHunter는 세 가지 핵심 모듈로 구성됩니다: 1) 로컬 및 글로벌 특징 상호작용을 모두 포착하는 컨볼루션 강화 변환기(Conformer) 구조로, 이전 방법들이 주로 컨볼루셔널 신경망에 의존했던 것과 대비됩니다; 2) 시간 차원에서 주의를 더욱 활용하는 주의 기반 시간 풀링 모듈; 3) 먼저 노래 조각들을 대략적으로 정렬시키고, 그 다음으로 정렬된 조각들에서 학습하여 네트워크를 세밀하게 개선하는 새로운 거칠기-세밀함 순서 학습 방식(coarse-to-fine training scheme). 또한, 시스템에서 사용된 몇 가지 중요한 학습 트릭들을 요약하여 더 나은 결과를 얻는데 도움이 되는 방법들을 소개합니다. 여러 표준 CSI 데이터셋에 대한 실험 결과, 우리의 방법은 임베딩 크기가 128일 때 최신 기술(state-of-the-art)보다 크게 성능을 향상시켰습니다(SHS100K-TEST에서는 2.3%, DaTacos에서는 17.7%).

CoverHunter: 정교한 주의력과 정렬을 활용한 커버곡 식별 | 최신 연구 논문 | HyperAI초신경