ペダルを伴う高解像度ピアノ楽譜転写:オフセット時間の回帰による手法

自動音楽記譜(Automatic Music Transcription, AMT)とは、音声記録を記号表現に変換するタスクである。近年、ニューラルネットワークを用いた手法がAMTに適用され、最先端の性能を達成している。しかし、多くの既存システムは、フレーム単位で音の発音時刻(onset)と終了時刻(offset)を検出するにとどまっており、記譜の解像度がフレーム間隔(frame hop size)に制限されていた。また、学習時に発音時刻と終了時刻のターゲットを異なる戦略で符号化する手法に関する研究は依然として不足している。さらに、既存のAMTシステムは、音声記録における発音・終了ラベルのズレ(misalignment)に対して非常に敏感である。加えて、大規模データセットにおける持続ペダル(sustain pedal)の記譜に関する研究は限られている。本論文では、ピアノ音符の正確な発音時刻と終了時刻を回帰する高解像度AMTシステムを提案する。推論時には、ピアノ音符およびペダルイベントの正確な発音・終了時刻を解析的に計算するアルゴリズムを導入する。実験の結果、本システムは従来の手法と比較して、発音・終了ラベルのズレに対してよりロバストであることが示された。MAESTROデータセットにおいて、本システムは発音F1スコア96.72%を達成し、従来の「onset and frames」システム(94.80%)を上回った。また、ペダル発音F1スコアは91.86%を達成し、MAESTROデータセットにおける初めてのベンチマーク結果である。本研究のソースコードおよびモデルチェックポイントは、https://github.com/bytedance/piano_transcription にて公開している。