17 天前

序列化端到端意图与槽位标签分类及定位

Yiran Cao, Nihal Potdar, Anderson R. Avila
序列化端到端意图与槽位标签分类及定位
摘要

人机交互(Human-computer interaction, HCI)深受语音对话系统响应延迟的影响。为此,近期提出了一种端到端(end-to-end, e2e)语音语言理解(spoken language understanding, SLU)方案,旨在降低系统延迟。此类方法可直接从语音信号中提取语义信息,从而无需依赖自动语音识别(automatic speech recognition, ASR)系统生成的文本转录。本文提出一种适用于流式场景的轻量级e2e SLU架构,该架构通过连续处理语音信号的片段,实时预测意图和槽位值。所提模型基于三维卷积神经网络(3D convolutional neural network, 3D-CNN)与单向长短期记忆网络(unidirectional long short-term memory, LSTM)。我们对比了两种无需对齐的损失函数:连接主义时序分类(connectionist temporal classification, CTC)方法及其改进版本——连接主义时序定位(connectionist temporal localization, CTL)。其中,CTL不仅能够完成序列分类,还可实现对音频事件的时间定位。所提方法在Fluent Speech Command数据集上进行了评估,实验结果表明,该模型能够有效处理实时输入的语音信号,在单标签分类任务中,CTC与CTL的准确率分别达到98.97%和98.78%;在双标签预测任务中,准确率分别达到95.69%和95.28%。