17 天前
面向通用语音助手的端到端语音语言理解
Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris

摘要
端到端(End-to-End, E2E)语音语言理解(Spoken Language Understanding, SLU)系统通过单一模型直接从语音输入中预测话语的语义信息。以往该领域的研究主要聚焦于特定任务和固定领域,其输出语义结构预先设定,且输入语音的复杂性有限。在本工作中,我们提出了一种面向商用语音助手(Voice Assistants, VAs)通用化SLU的端到端建模方法。我们设计了一种完全可微分的、基于Transformer的分层系统,该系统可在自动语音识别(ASR)与自然语言理解(NLU)两个层面进行预训练。随后,模型在语音转录与语义分类损失函数上进行微调,以应对多种意图与参数组合的复杂场景。实验结果表明,该SLU系统在一项复杂的内部通用语音助手数据集上,相较于基线模型实现了高达43%的准确率提升;同时,在广泛使用的Fluent Speech Commands数据集上,仍保持了99%的准确率基准。此外,我们在一个极具挑战性的测试集上进一步评估模型性能,该测试集仅包含训练阶段未见的槽位参数(slot arguments),结果表明模型准确率相较基线提升了近20%,充分验证了该方法在真实、高难度语音助手应用场景中的有效性与鲁棒性。