Command Palette
Search for a command to run...
Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

摘要
在复杂的真实声音场景中进行编辑十分困难,因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识,填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统,该系统可根据文本编辑描述(例如“增强门声”)以及通过“事件滚轴”(event roll)转录生成的事件时间图示,实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构,其训练数据由合成的(输入,期望输出)音频样本对构成,具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明,编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明,“重构重组”(recomposition)是一种重要且具有实际应用价值的任务。