Command Palette
Search for a command to run...
延迟流建模的流式序列到序列学习
延迟流建模的流式序列到序列学习
Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez
摘要
我们提出延迟流建模(Delayed Streams Modeling, DSM),这是一种灵活的流式多模态序列到序列学习框架。传统的序列到序列生成通常以离线方式执行,即模型需完整接收输入序列后才开始生成首个输出时间步。相比之下,流式序列到序列模型则需学习一种策略,以决定何时推进输入流或向输出流写入数据。而DSM则采用仅解码器的语言模型,对已对齐的时序流进行建模。通过将对齐操作前置到预处理阶段,并在各流之间引入适当的延迟,DSM实现了任意输出序列的流式推理,适用于任意输入组合,因而可广泛应用于各类序列到序列任务。特别地,当输入为文本与音频流时,若文本流被延迟,则对应自动语音识别(ASR)任务;反之,则构成文本到语音(TTS)模型。我们在上述两类主要的序列到序列任务上进行了大量实验,结果表明,DSM在保持先进性能的同时,具备极低延迟,并能支持任意长度的序列输入,其表现甚至可与离线基准模型相媲美。代码、示例及演示视频可访问此链接获取:[https URL]