HyperAIHyperAI

Command Palette

Search for a command to run...

两步声源分离:基于学习的潜在目标训练

Efthymios Tzinis Shrikant Venkataramani Zhepei Wang Cem Subakan Paris Smaragdis

摘要

本文提出了一种基于深度神经网络的语音分离两阶段训练方法。在第一阶段,我们学习一个映射变换(及其逆变换),将信号转换至一个潜在空间,在该空间中,基于掩码的分离方法在使用理想掩码(oracle)时可达到最优性能。在第二阶段,我们在第一阶段所学习的潜在空间上训练一个分离模块。为实现这一目标,我们还引入了一种适用于潜在空间的尺度不变信干比(SI-SDR)损失函数,并证明该损失函数在潜在空间中的值可作为时域SI-SDR的下界。通过一系列语音分离实验,我们验证了该方法相较于联合学习变换与分离模块的系统,能够获得更优的分离性能。所提出的框架具有较强的通用性,可广泛适用于各类神经网络端到端语音分离系统。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供