2 个月前
兼得两者之长:将判别学习的知识迁移到生成式视觉对话模型
Jiasen Lu; Anitha Kannan; Jianwei Yang; Devi Parikh; Dhruv Batra

摘要
我们提出了一种新颖的神经序列模型训练框架,特别适用于基于场景的对话生成。这些模型的标准训练范式是最大似然估计(MLE),即最小化人类响应的交叉熵。在多个领域中,使用MLE训练的生成式神经对话模型(G)普遍存在一个问题,即它们倾向于产生“安全”且泛化的响应(如“我不知道”,“我不能确定”)。相比之下,判别式对话模型(D)通过排名候选的人类响应列表来训练,其在自动评估指标、响应多样性以及信息量方面优于生成式模型。然而,由于D无法用于实际与用户进行真实对话,因此在实践中并不实用。我们的研究旨在结合两者的优点——G的实际可用性和D的强大性能——通过从D向G的知识迁移实现这一目标。我们的主要贡献是一个端到端可训练的生成式视觉对话模型,在该模型中,G接收来自D的梯度作为从G采样序列的感知损失(而非对抗损失)。我们利用了最近提出的针对离散分布的Gumbel-Softmax(GS)近似方法——具体来说,是一个增强了一系列GS采样的RNN,并结合直通梯度估计器以实现端到端的可微分性。此外,我们引入了一个更强的视觉对话编码器,并采用了自注意力机制对答案进行编码,同时使用度量学习损失来帮助D更好地捕捉答案响应中的语义相似性。总体而言,我们提出的模型在VisDial数据集上的表现显著优于现有最佳方法(recall@10指标提高了2.67%)。源代码可以从https://github.com/jiasenlu/visDial.pytorch下载。