1 个月前
多分辨率递归神经网络:在对话响应生成中的应用
Iulian Vlad Serban; Tim Klinger; Gerald Tesauro; Kartik Talamadupula; Bowen Zhou; Yoshua Bengio; Aaron Courville

摘要
我们介绍了一种多分辨率递归神经网络(Multiresolution Recurrent Neural Network),该网络扩展了序列到序列框架,将自然语言生成建模为两个并行的离散随机过程:一个高层次的粗粒度标记序列和一个自然语言标记序列。虽然有许多方法可以估计或学习高层次的粗粒度标记,但我们认为简单的提取程序就足以捕捉大量的高层次话语语义。这种程序允许通过最大化两个序列的确切联合对数似然来训练多分辨率递归神经网络。与针对自然语言标记(即词困惑度)的标准对数似然目标相比,优化联合对数似然会使模型倾向于建模高层次抽象。我们将提出的模型应用于两个具有挑战性的领域的对话响应生成任务:Ubuntu技术支持领域和Twitter对话。在Ubuntu领域,该模型显著优于其他竞争方法,在自动评估指标和人工评估研究中均取得了最先进的结果。在Twitter上,根据自动评估指标,该模型似乎能生成更加相关且切题的响应。最后,我们的实验表明,所提出的模型更擅长克服自然语言的稀疏性,并且能够更好地捕捉长期结构。