17 天前
一种轻量级无仪器依赖的多音符转录与多音高估计模型
Rachel M. Bittner, Juan José Bosch, David Rubinstein, Gabriel Meseguer-Brocal, Sebastian Ewert

摘要
自动音乐转录(Automatic Music Transcription, AMT)已被视为一项关键的使能技术,具有广泛的应用前景。由于任务本身的复杂性,目前性能最佳的系统通常针对特定场景进行优化,例如,针对特定乐器设计的系统往往在性能上优于通用乐器的系统。同样,当仅需估计逐帧的基频($f_0$)值而忽略更具挑战性的音符事件检测时,也能获得更高的准确率。尽管这些专用系统在精度上表现优异,但在实际应用中却难以部署:存储与网络资源的限制使得无法同时使用多个专用模型,而内存与运行时资源的约束又限制了模型的复杂度。本文提出了一种轻量级神经网络架构,用于乐器音乐转录,该模型支持多音符输出,并能泛化至多种乐器(包括人声)。我们的模型联合预测逐帧的音符起始点、多音高信息以及音符激活状态。实验结果表明,这种多输出结构显著提升了帧级音符识别的准确性。尽管模型结构简洁,但在基准测试中,其音符估计性能显著优于同类基线系统,帧级准确率也仅略低于当前最先进的专用AMT系统。本工作旨在推动学术界进一步探索资源消耗低、且不依赖特定乐器的通用型音乐转录系统。