
摘要
序列到序列模型已被广泛应用于各类自然语言处理任务,但其在对话状态追踪(dialogue state tracking)中的恰当使用方式尚未得到系统性研究。本文从预训练目标以及上下文表示格式两个角度对这一问题展开探讨。研究发现,预训练目标的选择对对话状态追踪的性能具有显著影响。具体而言,我们发现基于跨度预测(masked span prediction)的预训练方法相较于自回归语言建模(auto-regressive language modeling)更为有效。此外,我们还探索了将基于跨度预测的预训练目标——Pegasus(原本用于文本摘要任务)——应用于对话状态追踪模型。令人意外的是,尽管摘要任务与对话状态追踪看似相距甚远,但该预训练策略在对话状态追踪任务上表现出了出人意料的良好效果。同时,我们发现虽然采用循环神经网络(RNN)结构的上下文状态表示方法也能取得合理性能,但模型在面对早期错误时往往难以有效恢复。我们在MultiWOZ 2.1–2.4、WOZ 2.0以及DSTC2等多个数据集上进行了实验,结果均呈现出一致的观察结论。