2 个月前

语言知识作为循环神经网络的记忆

Bhuwan Dhingra; Zhilin Yang; William W. Cohen; Ruslan Salakhutdinov

摘要

训练循环神经网络以建模长期依赖关系是一项具有挑战性的任务。因此，我们提出利用外部语言知识作为显式信号，告知模型应使用哪些记忆。具体而言，外部知识用于在序列中添加类型化的边，连接任意距离的元素，并将生成的图分解为有向无环子图。我们引入了一种模型，该模型将此类图编码为循环神经网络中的显式记忆，并用它来建模文本中的共指关系。我们将该模型应用于多个文本理解任务，在包括CNN、bAbi和LAMBADA在内的所有考虑的基准测试中均取得了新的最佳结果。在bAbi问答任务中，我们的模型仅需每项任务1000个训练样本即可解决20项任务中的15项。对学习到的表示进行分析进一步证明了我们的模型能够在文档中编码精细的实体信息。