7 个月前

卷积神经网络

音频和语音处理

Daniel Stoller; Sebastian Ewert; Simon Dixon

摘要

音频源分离模型通常在幅度谱上进行操作，这忽略了相位信息，使得分离性能依赖于频谱前端的超参数。因此，我们研究了时域中的端到端源分离方法，该方法允许建模相位信息并避免固定的频谱变换。由于音频的高采样率，在样本级别上使用长时间上下文输入是困难的，但为了获得高质量的分离结果，这是必要的，因为存在长距离时间相关性。在此背景下，我们提出了Wave-U-Net，即U-Net在一维时域上的适应版本，通过反复对特征图进行重采样来计算和结合不同时间尺度上的特征。我们进一步引入了架构改进措施，包括一个强制源加性的输出层、一种上采样技术和一个上下文感知预测框架，以减少输出伪影。歌唱声音分离实验表明，在给定相同数据的情况下，我们的架构性能可与最先进的基于频谱图的U-Net架构相媲美。最后，我们揭示了当前使用的SDR评估指标中存在的离群值问题，并建议报告基于秩次的统计量以缓解这一问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

音频和语音处理

Daniel Stoller; Sebastian Ewert; Simon Dixon

摘要

音频源分离模型通常在幅度谱上进行操作，这忽略了相位信息，使得分离性能依赖于频谱前端的超参数。因此，我们研究了时域中的端到端源分离方法，该方法允许建模相位信息并避免固定的频谱变换。由于音频的高采样率，在样本级别上使用长时间上下文输入是困难的，但为了获得高质量的分离结果，这是必要的，因为存在长距离时间相关性。在此背景下，我们提出了Wave-U-Net，即U-Net在一维时域上的适应版本，通过反复对特征图进行重采样来计算和结合不同时间尺度上的特征。我们进一步引入了架构改进措施，包括一个强制源加性的输出层、一种上采样技术和一个上下文感知预测框架，以减少输出伪影。歌唱声音分离实验表明，在给定相同数据的情况下，我们的架构性能可与最先进的基于频谱图的U-Net架构相媲美。最后，我们揭示了当前使用的SDR评估指标中存在的离群值问题，并建议报告基于秩次的统计量以缓解这一问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Wave-U-Net：一种用于端到端音频源分离的多尺度神经网络 | 论文 | HyperAI超神经