6 个月前

摘要

钢琴转录系统通常被优化为在音频的每一帧上估计音高活动情况。随后，常通过精心设计的启发式规则和后处理算法，从帧级预测中推断出音符事件。近年来，也有研究将钢琴转录问题建模为多任务学习问题，独立估计音符事件各个阶段的激活状态。然而，这些方法与该任务的理想目标——将音符事件作为整体性的时间区间进行描述——并不一致，因为它们依赖于对不连续帧级观测结果的拼接整合。在本研究中，我们提出了一种钢琴转录的新范式，该方法直接优化音符事件的预测。我们的方法基于半马尔可夫条件随机场（Semi-Markov Conditional Random Fields, semi-CRF），其输出为时间区间的得分，而非单个帧的得分。通过这种建模方式，我们无需再依赖于对音符事件不同阶段的分离式帧级估计。我们在MAESTRO数据集上进行了实验，结果表明，所提出的模型在钢琴转录任务上超越了当前最先进的方法。实验结果表明，尽管semi-CRF输出层的计算复杂度仍为二次级，但其作为一种事件驱动预测的解决方案，具有结构简洁、运行高效、性能优异的特点。该方法有望在其他目前依赖帧级估计的领域中取得类似成功。

源 PDF 查看代码