
摘要
我们提出了一种用于跟踪节拍和强拍的系统,旨在实现两个目标:广泛的音乐适用性和高精度。为了实现广泛适用性,我们在多个数据集上进行训练,这些数据集包括独奏乐器录音、包含时间签名变化的作品以及具有高节奏变化的古典音乐,并且去除了常用的动态贝叶斯网络(DBN)后处理步骤,该步骤会引入对拍子和节奏的限制。为了提高精度,我们开发了一种对注释小时间偏移具有容忍性的损失函数,并设计了一种在频率或时间维度上交替使用卷积层和变压器层的架构。尽管没有使用DBN,我们的系统在F1分数上仍超过了当前最先进的水平。然而,该系统仍然可能失败,尤其是在处理困难和代表性不足的音乐类型时,在连续性指标上的表现也较差。因此,我们发布了我们的模型、代码和预处理后的数据集,并邀请其他研究者超越这一成果。