
摘要
自动音乐转录(AMT),即从原始音频中推断出音乐音符,是一项位于音乐理解核心的具有挑战性的任务。与通常专注于单个说话者词汇的自动语音识别(ASR)不同,AMT经常需要同时转录多种乐器,并在此过程中保留精细的音高和时间信息。此外,许多AMT数据集属于“低资源”类型,因为即使是专业音乐家也发现音乐转录既困难又耗时。因此,以往的研究主要集中在针对特定任务设计的架构上,这些架构针对每个任务中的个别乐器进行了定制。在本研究中,受到低资源自然语言处理(NLP)领域序列到序列迁移学习取得的有希望结果的启发,我们展示了通用的Transformer模型可以执行多任务AMT,联合转录多个音乐数据集中任意组合的乐器。我们证明了这一统一训练框架在各种数据集上均能实现高质量的转录结果,显著提升了低资源乐器(如吉他)的表现,同时保持了对资源丰富的乐器(如钢琴)的强大性能。最后,通过扩展AMT的研究范围,我们揭示了对更一致的评估指标和更好的数据集对齐的需求,并为这一新的多任务AMT方向提供了强大的基线模型。