6 个月前

音频和语音处理

多任务学习

统一多模态

Neil Zeghidour David Grangier

摘要

我们提出Wavesplit，一种端到端的语音源分离系统。该模型仅需输入单一混合信号，即可推断出每个声源的表示，并基于这些推断出的表示估计各个声源的信号。模型在原始波形上联合训练，同时完成声源表示推断与信号重建两项任务。Wavesplit通过聚类方式推断一组声源表示，有效解决了分离任务中的根本性排列问题。在语音分离任务中，我们的序列级说话人表示相较于以往方法，能够更稳健地处理长时、复杂的语音录音。Wavesplit在2人或3人清晰混合语音（WSJ0-2mix/3mix）任务上重新定义了当前最优性能，同时在噪声与混响环境（WHAM/WHAMR）下也取得了显著提升。此外，我们在最新的LibriMix数据集上建立了新的基准。最后，我们还展示了Wavesplit在其他领域的适用性——仅通过单个腹部心电图信号，即可成功分离出胎儿与母体的心率信号。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

统一多模态

Neil Zeghidour David Grangier

摘要

我们提出Wavesplit，一种端到端的语音源分离系统。该模型仅需输入单一混合信号，即可推断出每个声源的表示，并基于这些推断出的表示估计各个声源的信号。模型在原始波形上联合训练，同时完成声源表示推断与信号重建两项任务。Wavesplit通过聚类方式推断一组声源表示，有效解决了分离任务中的根本性排列问题。在语音分离任务中，我们的序列级说话人表示相较于以往方法，能够更稳健地处理长时、复杂的语音录音。Wavesplit在2人或3人清晰混合语音（WSJ0-2mix/3mix）任务上重新定义了当前最优性能，同时在噪声与混响环境（WHAM/WHAMR）下也取得了显著提升。此外，我们在最新的LibriMix数据集上建立了新的基准。最后，我们还展示了Wavesplit在其他领域的适用性——仅通过单个腹部心电图信号，即可成功分离出胎儿与母体的心率信号。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供