
摘要
意图检测是面向任务的对话系统中自然语言理解(NLU)单元的一项任务。超出范围(Out of Scope, OOS)和超出领域(Out of Domain, OOD)的输入可能会给这些系统带来问题。另一方面,训练面向任务的对话系统的意图检测模型需要一个标注数据集。创建标注数据集既耗时又需要人力资源。本文旨在解决上述问题。识别OOD/OOS输入的任务被称为OOD/OOS意图检测。此外,发现新意图并对OOD输入进行伪标注的过程也称为意图发现。在OOD意图检测部分,我们利用变分自编码器(Variational Autoencoder)来区分已知和未知意图,而不依赖于输入数据的分布情况。随后,采用无监督聚类方法来发现OOD/OOS输入背后的各类未知意图。我们还对OOD/OOS表示进行了非线性降维处理,以使表示之间的距离在聚类时更具意义。实验结果表明,所提出的模型在英语和波斯语中均取得了显著的效果,并且超过了基线水平。