17 天前

FANS:融合ASR与NLU的端侧SLU

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow
FANS:融合ASR与NLU的端侧SLU
摘要

语音语言理解(Spoken Language Understanding, SLU)系统将语音输入指令转换为语义表示,其语义通常以意图(intent)以及槽位标签(slot tags)与对应值(slot values)的组合形式进行编码。当前大多数SLU系统采用两级神经网络级联架构:第一个模型将输入音频映射为文本转录(自动语音识别,ASR),第二个模型则基于转录结果预测意图和槽位信息(自然语言理解,NLU)。本文提出一种新型端到端SLU模型——FANS,该模型通过融合ASR音频编码器与多任务NLU解码器,能够直接从输入音频中推断出意图、槽位标签及槽位值,从而无需依赖中间文本转录过程。FANS模型由一个共享的音频编码器和三个解码器组成,其中两个解码器为序列到序列(seq-to-seq)结构,能够并行且自回归地预测非空槽位标签及其对应值。FANS的神经编码器与解码器架构具有高度灵活性,支持灵活组合使用LSTM、自注意力(self-attention)以及注意力机制(attenders)等组件。实验结果表明,在自建SLU数据集上测试时,相较于当前最先进的端到端SLU模型,FANS分别将意图识别错误率(ICER)和槽位识别错误率(IRER)相对降低了30%和7%;在公开SLU数据集上测试时,其绝对错误率分别降低了0.86%和2%。