6 个月前

音频和语音处理

多任务学习

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe

摘要

本文提出了一种新颖的端到端神经网络语音说话人分离方法。与大多数现有方法不同，所提出的方法不采用独立的说话人表征提取与聚类模块，而是通过单一神经网络直接输出说话人分离结果。为实现该模型，我们将说话人分离问题建模为多标签分类任务，并引入一种无排列依赖的目标函数，从而在不受到说话人标签排列问题影响的情况下，直接最小化分离错误。除了具备端到端的简洁性外，该方法还能够显式处理训练和推理过程中的重叠语音。得益于这一优势，仅需输入对应的多说话人语音片段标签，即可轻松地使用真实录制的多说话人对话数据对模型进行训练或适应。我们在模拟语音混合数据上对该方法进行了评估，结果表明，所提方法的说话人分离错误率（Diarization Error Rate, DER）达到12.28%，而传统的基于聚类的方法则达到28.77%。此外，在CALLHOME数据集上，通过使用真实录制语音进行领域自适应，取得了25.6%的相对性能提升。本文的源代码已公开，可通过 https://github.com/hitachi-speech/EEND 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe

摘要

本文提出了一种新颖的端到端神经网络语音说话人分离方法。与大多数现有方法不同，所提出的方法不采用独立的说话人表征提取与聚类模块，而是通过单一神经网络直接输出说话人分离结果。为实现该模型，我们将说话人分离问题建模为多标签分类任务，并引入一种无排列依赖的目标函数，从而在不受到说话人标签排列问题影响的情况下，直接最小化分离错误。除了具备端到端的简洁性外，该方法还能够显式处理训练和推理过程中的重叠语音。得益于这一优势，仅需输入对应的多说话人语音片段标签，即可轻松地使用真实录制的多说话人对话数据对模型进行训练或适应。我们在模拟语音混合数据上对该方法进行了评估，结果表明，所提方法的说话人分离错误率（Diarization Error Rate, DER）达到12.28%，而传统的基于聚类的方法则达到28.77%。此外，在CALLHOME数据集上，通过使用真实录制语音进行领域自适应，取得了25.6%的相对性能提升。本文的源代码已公开，可通过 https://github.com/hitachi-speech/EEND 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供