基于迁移学习的端到端语音语言理解研究

诸如 Alexa、Siri 和 Google 助手等语音助手通常采用两阶段的语音语言理解(Spoken Language Understanding, SLU)流程:首先通过自动语音识别(Automatic Speech Recognition, ASR)模块对用户语音进行处理,生成文本转写;随后由自然语言理解(Natural Language Understanding, NLU)模块将转写文本映射为可执行的语义意图。而端到端(End-to-End, E2E)系统则直接从语音输入生成意图,是一种更具吸引力的替代方案。这类系统已被证明具有更小的模型规模、更快的推理速度以及更优的优化性能。然而,E2E 系统通常需要海量的端到端训练数据,且无法有效利用已有的 ASR 和 NLU 预训练数据。在本研究中,我们提出一种新型的端到端系统,该系统能够联合训练多种语音到文本任务(如 ASR,即语音-转写)和文本到文本任务(如 NLU,即文本-意图)。我们将其命名为“音频-文本全任务”(Audio-Text All-Task, AT-AT)模型。实验表明,该模型在各项任务上的性能优于仅针对单一任务训练的端到端模型,尤其在训练数据有限的情况下表现更为突出。我们在内部音乐数据集以及两个公开数据集 FluentSpeech 和 SNIPS Audio 上验证了该方法的有效性,并取得了当前最优(state-of-the-art)的性能表现。此外,由于我们的模型能够同时处理语音与文本输入序列,并学习预测目标序列,因此支持在仅使用新领域中的文本-意图数据(无需任何语音数据)的情况下,实现零样本(zero-shot)端到端语音意图理解(E2E SLU)。我们在 Facebook TOP 数据集上评估了该能力,并为零样本端到端语音理解设立了新的性能基准。我们即将发布为 TOP 数据集收集的音频数据,以支持未来相关研究。