
摘要
为人类阅读而记录歌词不仅需要准确捕捉词序,还必须加入标点符号和格式以提高清晰度并传达上下文信息。这包括歌曲结构、情感强调以及主唱与和声之间的对比。尽管自动歌词转录(Automatic Lyrics Transcription, ALT)系统已经超越了仅生成无结构的词串,能够利用更广泛的上下文,但ALT基准测试尚未跟上这一进步的步伐,仍然专注于单词本身。为了弥补这一差距,我们引入了Jam-ALT,一个全面的歌词转录基准测试。该基准测试对JamendoLyrics数据集进行了彻底修订,遵循行业标准进行歌词转录和格式化,并设计了评估指标以捕捉和评估特定于歌词的细微差别,为提高歌词可读性奠定了基础。我们将该基准应用于最近的转录系统,并提供了额外的错误分析,以及与古典音乐数据集的实验对比。