摘要
通常,多声部钢琴音乐转录系统旨在对每个音频帧中的音高活动及各类音符状态进行估计与判定。尽管音乐转录系统在音乐信息检索(Music Information Retrieval, MIR)领域具有多种应用,但由于音符事件结构的复杂性,精确预测各类音符状态仍被视为一项极具挑战性的任务。因此,神经网络架构的设计方法逐渐演进,以支持对每个音符状态的联合预测。然而,现有模型尚未能高效利用不同音符状态之间的相互关联。本文的核心贡献在于,我们验证了不同音符状态之间的相互关联性,并将其有效融入模型架构设计中,从而提升了转录系统对清晰音符事件的识别能力,实现了高质量的真实世界转录结果。为此,我们提出了一种核共享特征提取模块,用于在特征提取阶段充分挖掘这些状态间的相互关联。此外,为使系统能够识别音高包络的形态特征,我们在音符状态检测阶段,于特定音符状态检测模块之间引入了若干连接机制。所提出的架构在谷歌Magenta团队发布的公开MAESTRO数据集上进行了多轮实验,充分验证了其有效性。同时,通过消融实验进一步验证了状态间相互关联性的合理性,并展示了所提方法在性能提升方面的显著影响与实际意义。