6 个月前

音频和语音处理

统一多模态

Jing Shi Xuankai Chang Pengcheng Guo Shinji Watanabe Yusuke Fujita Jiaming Xu Bo Xu Lei Xie

摘要

神经序列到序列（sequence-to-sequence）模型在可建模为将单一输入序列映射到单一输出序列的应用中已得到广泛应用。在本研究中，我们关注一类“一对多”的序列转换问题，例如从混合序列中提取多个有序的源序列。为此，我们对标准的序列到序列模型进行了扩展，提出一种条件多序列模型，该模型通过概率链式法则显式建模多个输出序列之间的相关性。基于这一扩展，我们的模型能够逐个条件推断输出序列，利用输入序列以及先前估计的上下文输出序列进行推理。此外，该模型还配备了一种简单而高效的终止准则，能够灵活推断输出序列的数量，从而适应不同数量的输出。我们以语音数据为主要测试场景，因为语音信号本质上具有叠加性，实际观测到的语音数据通常由多个声源叠加而成。在语音分离和多说话人语音识别等多个任务上的实验结果表明，与传统的非条件模型相比，我们提出的条件多序列模型能够持续带来性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

统一多模态

Jing Shi Xuankai Chang Pengcheng Guo Shinji Watanabe Yusuke Fujita Jiaming Xu Bo Xu Lei Xie

摘要

神经序列到序列（sequence-to-sequence）模型在可建模为将单一输入序列映射到单一输出序列的应用中已得到广泛应用。在本研究中，我们关注一类“一对多”的序列转换问题，例如从混合序列中提取多个有序的源序列。为此，我们对标准的序列到序列模型进行了扩展，提出一种条件多序列模型，该模型通过概率链式法则显式建模多个输出序列之间的相关性。基于这一扩展，我们的模型能够逐个条件推断输出序列，利用输入序列以及先前估计的上下文输出序列进行推理。此外，该模型还配备了一种简单而高效的终止准则，能够灵活推断输出序列的数量，从而适应不同数量的输出。我们以语音数据为主要测试场景，因为语音信号本质上具有叠加性，实际观测到的语音数据通常由多个声源叠加而成。在语音分离和多说话人语音识别等多个任务上的实验结果表明，与传统的非条件模型相比，我们提出的条件多序列模型能够持续带来性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供