8 个月前

音频和语音处理

Chopra Anuradha Roy Abhinaba Herremans Dorien

摘要

详细描述音乐作品特征的字幕可以丰富音乐数据库并推动音乐人工智能领域的研究。本文介绍了一种多任务音乐字幕生成模型——SonicVerse，该模型将字幕生成与辅助音乐特征检测任务（如调性检测、人声检测等）相结合，从而直接捕捉低层次的声学细节和高层次的音乐属性。其主要贡献在于一种基于投影的架构，该架构将音频输入转换为语言标记，同时通过专门的辅助头检测音乐特征。这些辅助头的输出也被投影为语言标记，以增强字幕生成的输入。这一框架不仅能够为短片段音乐生成丰富、描述性的字幕，还能通过使用大型语言模型串联输出，直接为较长的音乐作品生成详细的时间信息描述。为了训练该模型，我们扩展了MusicBench数据集，使用模块化音乐特征提取器MIRFLEX对其进行音乐特征标注，从而获得了配对的音频、字幕和音乐特征数据。实验结果表明，以这种方式融入特征可以提高生成字幕的质量和细节。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Chopra Anuradha Roy Abhinaba Herremans Dorien

摘要

详细描述音乐作品特征的字幕可以丰富音乐数据库并推动音乐人工智能领域的研究。本文介绍了一种多任务音乐字幕生成模型——SonicVerse，该模型将字幕生成与辅助音乐特征检测任务（如调性检测、人声检测等）相结合，从而直接捕捉低层次的声学细节和高层次的音乐属性。其主要贡献在于一种基于投影的架构，该架构将音频输入转换为语言标记，同时通过专门的辅助头检测音乐特征。这些辅助头的输出也被投影为语言标记，以增强字幕生成的输入。这一框架不仅能够为短片段音乐生成丰富、描述性的字幕，还能通过使用大型语言模型串联输出，直接为较长的音乐作品生成详细的时间信息描述。为了训练该模型，我们扩展了MusicBench数据集，使用模块化音乐特征提取器MIRFLEX对其进行音乐特征标注，从而获得了配对的音频、字幕和音乐特征数据。实验结果表明，以这种方式融入特征可以提高生成字幕的质量和细节。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

SonicVerse：基于音乐特征的多任务学习字幕生成 | 论文 | HyperAI超神经