5 个月前

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

摘要

在复杂的真实声音场景中进行编辑十分困难，因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识，填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统，该系统可根据文本编辑描述（例如“增强门声”）以及通过“事件滚轴”（event roll）转录生成的事件时间图示，实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构，其训练数据由合成的（输入，期望输出）音频样本对构成，具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明，编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明，“重构重组”（recomposition）是一种重要且具有实际应用价值的任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

摘要

在复杂的真实声音场景中进行编辑十分困难，因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识，填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统，该系统可根据文本编辑描述（例如“增强门声”）以及通过“事件滚轴”（event roll）转录生成的事件时间图示，实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构，其训练数据由合成的（输入，期望输出）音频样本对构成，具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明，编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明，“重构重组”（recomposition）是一种重要且具有实际应用价值的任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供