6 个月前

音频和语音处理

多任务学习

Rodrigo Castellon Chris Donahue Percy Liang

摘要

我们证明了在编码化（离散编码）音乐音频上进行预训练的语言模型，能够学习到对下游音乐信息检索（MIR）任务具有实用价值的表征。具体而言，我们研究了Jukebox（Dhariwal等，2020）所生成的表征：这是一个音乐生成系统，其语言模型在来自100万首歌曲的编码音频上进行了训练。为检验Jukebox的表征是否包含对MIR任务有用的信息，我们将其作为输入特征，用于训练多个MIR任务的浅层模型。与传统MIR模型所使用的、基于标签（tagging）预训练的表征相比，实验结果表明，在四项MIR任务——标签预测、流派分类、情感识别和调性检测——上，使用Jukebox表征作为输入特征的模型平均性能提升了30%。特别是在调性检测任务中，Jukebox的表征显著优于基于标签预训练模型的表征，这表明通过编码化音频的语言建模方式进行预训练，可能弥补了传统方法中存在的盲区。我们将其归因于：与基于标签建模相比，直接对音频进行建模能够为MIR任务提供更丰富、更具表征能力的特征。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Rodrigo Castellon Chris Donahue Percy Liang

摘要

我们证明了在编码化（离散编码）音乐音频上进行预训练的语言模型，能够学习到对下游音乐信息检索（MIR）任务具有实用价值的表征。具体而言，我们研究了Jukebox（Dhariwal等，2020）所生成的表征：这是一个音乐生成系统，其语言模型在来自100万首歌曲的编码音频上进行了训练。为检验Jukebox的表征是否包含对MIR任务有用的信息，我们将其作为输入特征，用于训练多个MIR任务的浅层模型。与传统MIR模型所使用的、基于标签（tagging）预训练的表征相比，实验结果表明，在四项MIR任务——标签预测、流派分类、情感识别和调性检测——上，使用Jukebox表征作为输入特征的模型平均性能提升了30%。特别是在调性检测任务中，Jukebox的表征显著优于基于标签预训练模型的表征，这表明通过编码化音频的语言建模方式进行预训练，可能弥补了传统方法中存在的盲区。我们将其归因于：与基于标签建模相比，直接对音频进行建模能够为MIR任务提供更丰富、更具表征能力的特征。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供