2달 전

자동 피아노 전사에 대한 계층적 주파수-시간 변환기

Keisuke Toyama; Taketo Akama; Yukara Ikemiya; Yuhta Takida; Wei-Hsiang Liao; Yuki Mitsufuji

초록

장기 스펙트럼 및 시간 의존성을 고려하는 것은 자동 피아노 트랜스크립션에 필수적입니다. 이는 특히 다성음 피아노 콘텐츠에서 각 음의 정확한 시작과 종료 시점을 결정할 때 유용합니다. 이러한 경우, 우리는 Transformer의 자기 주의 메커니즘이 주파수 축과 시간 축에서 이러한 장기 의존성을 포착하는 능력을 활용할 수 있습니다. 본 연구에서는 두 단계의 계층적 주파수-시간 Transformer 구조를 사용하는 자동 음악 트랜스크립션 방법인 hFT-Transformer를 제안합니다. 첫 번째 계층은 시간 축의 컨볼루션 블록, 주파수 축의 Transformer 인코더, 그리고 주파수 축의 차원을 변환하는 Transformer 디코더로 구성됩니다. 출력은 이후 두 번째 계층으로 전달되며, 이는 다시 시간 축의 다른 Transformer 인코더로 이루어져 있습니다. 우리는 널리 사용되는 MAPS와 MAESTRO v3.0.0 데이터셋을 사용하여 우리의 방법을 평가하였으며, 프레임(Frame), 노트(Note), 오프셋이 있는 노트(Note with Offset), 그리고 오프셋과 벨로시티가 있는 노트(Note with Offset and Velocity) 추정 지표들의 모든 F1 점수에서 최고 수준의 성능을 보였습니다.