Command Palette

Search for a command to run...

2 个月前

Recomposer:基于事件滚动引导的生成式音频编辑

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

Recomposer:基于事件滚动引导的生成式音频编辑

摘要

在复杂的真实声音场景中进行编辑十分困难,因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识,填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统,该系统可根据文本编辑描述(例如“增强门声”)以及通过“事件滚轴”(event roll)转录生成的事件时间图示,实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构,其训练数据由合成的(输入,期望输出)音频样本对构成,具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明,编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明,“重构重组”(recomposition)是一种重要且具有实际应用价值的任务。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供