HyperAIHyperAI

Command Palette

Search for a command to run...

跳过帧级建模:基于神经半马尔可夫条件随机场的事件级钢琴乐谱转录

Zhiyao Duan Frank Cwitkowitz Yujia Yan

摘要

钢琴转录系统通常被优化为在音频的每一帧上估计音高活动情况。随后,常通过精心设计的启发式规则和后处理算法,从帧级预测中推断出音符事件。近年来,也有研究将钢琴转录问题建模为多任务学习问题,独立估计音符事件各个阶段的激活状态。然而,这些方法与该任务的理想目标——将音符事件作为整体性的时间区间进行描述——并不一致,因为它们依赖于对不连续帧级观测结果的拼接整合。在本研究中,我们提出了一种钢琴转录的新范式,该方法直接优化音符事件的预测。我们的方法基于半马尔可夫条件随机场(Semi-Markov Conditional Random Fields, semi-CRF),其输出为时间区间的得分,而非单个帧的得分。通过这种建模方式,我们无需再依赖于对音符事件不同阶段的分离式帧级估计。我们在MAESTRO数据集上进行了实验,结果表明,所提出的模型在钢琴转录任务上超越了当前最先进的方法。实验结果表明,尽管semi-CRF输出层的计算复杂度仍为二次级,但其作为一种事件驱动预测的解决方案,具有结构简洁、运行高效、性能优异的特点。该方法有望在其他目前依赖帧级估计的领域中取得类似成功。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跳过帧级建模:基于神经半马尔可夫条件随机场的事件级钢琴乐谱转录 | 论文 | HyperAI超神经