HyperAI超神经
18 days ago

SonicVerse:基于音乐特征的多任务学习字幕生成

Chopra, Anuradha ; Roy, Abhinaba ; Herremans, Dorien
SonicVerse:基于音乐特征的多任务学习字幕生成
摘要

详细描述音乐作品特征的字幕可以丰富音乐数据库并推动音乐人工智能领域的研究。本文介绍了一种多任务音乐字幕生成模型——SonicVerse,该模型将字幕生成与辅助音乐特征检测任务(如调性检测、人声检测等)相结合,从而直接捕捉低层次的声学细节和高层次的音乐属性。其主要贡献在于一种基于投影的架构,该架构将音频输入转换为语言标记,同时通过专门的辅助头检测音乐特征。这些辅助头的输出也被投影为语言标记,以增强字幕生成的输入。这一框架不仅能够为短片段音乐生成丰富、描述性的字幕,还能通过使用大型语言模型串联输出,直接为较长的音乐作品生成详细的时间信息描述。为了训练该模型,我们扩展了MusicBench数据集,使用模块化音乐特征提取器MIRFLEX对其进行音乐特征标注,从而获得了配对的音频、字幕和音乐特征数据。实验结果表明,以这种方式融入特征可以提高生成字幕的质量和细节。