2 个月前

用于条件序列处理的聚焦层次递归神经网络

Nan Rosemary Ke; Konrad Zolna; Alessandro Sordoni; Zhouhan Lin; Adam Trischler; Yoshua Bengio; Joelle Pineau; Laurent Charlin; Chris Pal
用于条件序列处理的聚焦层次递归神经网络
摘要

带有注意力机制的循环神经网络(RNNs)在许多序列处理任务中取得了最先进的结果。大多数这些模型使用了一种简单的编码器加注意力机制的形式,该机制会遍历整个序列并对每个标记独立分配权重。本文提出了一种用于序列建模任务的RNN编码器聚焦机制,使编码器能够根据需要关注输入的关键部分。我们通过一个多层条件序列编码器来实现这一点,该编码器每次读取一个标记,并对当前标记是否与所问的问题或上下文相关作出离散决策。离散门控机制以上下文嵌入和当前隐藏状态作为输入,控制信息流向更高层。我们使用策略梯度方法对其进行训练。我们在具有不同属性的多种任务上评估了这种方法。首先,我们在合成任务上评估该方法,这些任务允许我们测试模型的泛化能力,并在更受控的环境中探究门的行为。然后,我们在大规模问答任务上评估这种方法,包括具有挑战性的MS MARCO和SearchQA任务。我们的模型在这两个任务上均比先前的工作和基线模型表现出一致的改进。此外,在合成任务上的实验表明,我们的模型相比基线模型具有显著更好的泛化能力。