2달 전

YourMT3+: 다중 악기 음악 트랜스크립션을 위한 개선된 트랜스포머 아키텍처와 크로스 데이터셋 스템 증강

Sungkyun Chang; Emmanouil Benetos; Holger Kirchhoff; Simon Dixon
YourMT3+: 다중 악기 음악 트랜스크립션을 위한 개선된 트랜스포머 아키텍처와 크로스 데이터셋 스템 증강
초록

다중 악기 음악 트랜스크립션은 다성음 음악 녹음을 각 악기에 할당된 악보로 변환하는 것을 목표로 합니다. 이 작업은 여러 악기를 동시에 식별하고 그들의 음높이와 정확한 타이밍을 트랜스크립트해야 하며, 완전히 주석화된 데이터의 부족으로 인해 학습에 어려움이 추가됩니다. 본 논문에서는 최근 MT3의 언어 토큰 디코딩 접근법을 기반으로 한 강화된 다중 악기 음악 트랜스크립션 모델인 YourMT3+를 소개합니다. 우리는 시간-주파수 영역에서 계층적 어텐션 트랜스포머를 채택하고 전문가 혼합을 통합하여 인코더를 강화하였습니다. 데이터 제약 사항을 해결하기 위해, 불완전한 주석으로 학습할 수 있는 새로운 다채널 디코딩 방법을 도입하였으며, 데이터셋 혼합을 위한 스테ム 내부 및 스테ם 간 증강(intra- and cross-stem augmentation)을 제안하였습니다. 실험 결과, 본 모델은 별도의 보이스 분리 사전 처리기가 필요 없이 직접 목소리를 트랜스크립트할 수 있는 능력을 보여주었습니다. 10개의 공개 데이터셋에 대한 벤치마킹은 우리의 모델들이 기존 트랜스크립션 모델들과 경쟁력이 있거나 우월함을 입증하였습니다. 팝 음악 녹음에 대한 추가 테스트는 현재 모델들의 한계점을 강조하였습니다. 완전히 재현 가능한 코드와 데이터셋은 \url{https://github.com/mimbres/YourMT3}에서 확인 가능하며, 데모도 함께 제공됩니다.

YourMT3+: 다중 악기 음악 트랜스크립션을 위한 개선된 트랜스포머 아키텍처와 크로스 데이터셋 스템 증강 | 최신 연구 논문 | HyperAI초신경