1 个月前

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

摘要

我们提出延迟流建模（Delayed Streams Modeling, DSM），这是一种灵活的流式多模态序列到序列学习框架。传统的序列到序列生成通常以离线方式执行，即模型需完整接收输入序列后才开始生成首个输出时间步。相比之下，流式序列到序列模型则需学习一种策略，以决定何时推进输入流或向输出流写入数据。而DSM则采用仅解码器的语言模型，对已对齐的时序流进行建模。通过将对齐操作前置到预处理阶段，并在各流之间引入适当的延迟，DSM实现了任意输出序列的流式推理，适用于任意输入组合，因而可广泛应用于各类序列到序列任务。特别地，当输入为文本与音频流时，若文本流被延迟，则对应自动语音识别（ASR）任务；反之，则构成文本到语音（TTS）模型。我们在上述两类主要的序列到序列任务上进行了大量实验，结果表明，DSM在保持先进性能的同时，具备极低延迟，并能支持任意长度的序列输入，其表现甚至可与离线基准模型相媲美。代码、示例及演示视频可访问此链接获取：[https URL]

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

1 个月前

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

摘要

我们提出延迟流建模（Delayed Streams Modeling, DSM），这是一种灵活的流式多模态序列到序列学习框架。传统的序列到序列生成通常以离线方式执行，即模型需完整接收输入序列后才开始生成首个输出时间步。相比之下，流式序列到序列模型则需学习一种策略，以决定何时推进输入流或向输出流写入数据。而DSM则采用仅解码器的语言模型，对已对齐的时序流进行建模。通过将对齐操作前置到预处理阶段，并在各流之间引入适当的延迟，DSM实现了任意输出序列的流式推理，适用于任意输入组合，因而可广泛应用于各类序列到序列任务。特别地，当输入为文本与音频流时，若文本流被延迟，则对应自动语音识别（ASR）任务；反之，则构成文本到语音（TTS）模型。我们在上述两类主要的序列到序列任务上进行了大量实验，结果表明，DSM在保持先进性能的同时，具备极低延迟，并能支持任意长度的序列输入，其表现甚至可与离线基准模型相媲美。代码、示例及演示视频可访问此链接获取：[https URL]

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供