17 天前

通过回归起始与终止时间实现带踏板的高分辨率钢琴记谱

Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, Yuxuan Wang
通过回归起始与终止时间实现带踏板的高分辨率钢琴记谱
摘要

自动音乐转录(Automatic Music Transcription, AMT)是指将音频录音转换为符号化音乐表示的任务。近年来,基于神经网络的方法被广泛应用于AMT,并取得了当前最优的性能。然而,许多先前的系统仅以帧为单位检测音符的起始(onset)与终止(offset),导致转录分辨率受限于帧移(frame hop size)。目前,针对不同策略编码起始与终止目标以用于训练的研究仍较为匮乏。此外,以往的AMT系统对音频标注中起始与终止时间的错位(misalignment)较为敏感。同时,在大规模数据集上关于踏板(sustain pedal)转录的研究也十分有限。本文提出一种高分辨率的AMT系统,通过回归钢琴音符的精确起始与终止时间进行训练。在推理阶段,我们设计了一种解析算法,可精确计算钢琴音符及踏板事件的起始与终止时间。实验表明,与以往方法相比,本系统对标注中起始与终止时间错位具有更强的鲁棒性。在MAESTRO数据集上,我们的系统在起始时间检测上取得了96.72%的F1分数,显著优于此前基于帧与起始点的系统(94.80%)。此外,系统在踏板起始时间检测上达到91.86%的F1分数,为MAESTRO数据集上首次公布的基准结果。我们已将本工作的源代码与模型检查点开源,地址为:https://github.com/bytedance/piano_transcription。