
摘要
钢琴转录系统通常被优化为在音频的每一帧上估计音高活动情况。随后,常通过精心设计的启发式规则和后处理算法,从帧级预测中推断出音符事件。近年来,也有研究将钢琴转录问题建模为多任务学习问题,独立估计音符事件各个阶段的激活状态。然而,这些方法与该任务的理想目标——将音符事件作为整体性的时间区间进行描述——并不一致,因为它们依赖于对不连续帧级观测结果的拼接整合。在本研究中,我们提出了一种钢琴转录的新范式,该方法直接优化音符事件的预测。我们的方法基于半马尔可夫条件随机场(Semi-Markov Conditional Random Fields, semi-CRF),其输出为时间区间的得分,而非单个帧的得分。通过这种建模方式,我们无需再依赖于对音符事件不同阶段的分离式帧级估计。我们在MAESTRO数据集上进行了实验,结果表明,所提出的模型在钢琴转录任务上超越了当前最先进的方法。实验结果表明,尽管semi-CRF输出层的计算复杂度仍为二次级,但其作为一种事件驱动预测的解决方案,具有结构简洁、运行高效、性能优异的特点。该方法有望在其他目前依赖帧级估计的领域中取得类似成功。