
摘要
大多数端到端(End-to-End, E2E)语音理解(SLU)模型虽依赖于预训练的自动语音识别(ASR)模型,但仍缺乏对话语语义的充分理解能力,而这对于SLU任务至关重要。为解决这一问题,近期研究提出引入预训练的自然语言理解(NLU)模型。然而,如何有效融合两个预训练模型仍具挑战性,已有多种方法被提出,包括知识蒸馏(Knowledge Distillation)、跨模态共享嵌入以及带有接口(Interface)的网络集成。本文提出一种简单且鲁棒的E2E SLU网络集成方法,引入一种新型接口——连续令牌接口(Continuous Token Interface, CTI),该接口适用于ASR与NLU网络均基于相同词汇表进行预训练的情形。由于二者之间唯一的差异仅为噪声水平,我们可直接将ASR网络的输出作为NLU网络的输入,从而在无需额外模块(如Gumbel-Softmax)的情况下,实现SLU模型的端到端训练。我们在具有挑战性的SLU数据集SLURP上对所提模型进行了评估,结果在意图分类与槽位填充两项任务上均达到了当前最优性能。此外,我们验证了基于掩码语言建模(Masked Language Model)预训练的NLU模型能够有效利用CTI所提供的噪声文本表示。最后,我们进一步证明,即使在引入CTI接口后,该模型仍可基于异构数据实现多任务学习。