
摘要
我们提出了一种新的神经架构,用于学习输出序列的条件概率,该输出序列的元素为离散标记,对应于输入序列中的位置。此类问题不能通过现有的方法(如序列到序列模型和神经图灵机)简单解决,因为每个输出步骤的目标类数量取决于输入的长度,而输入长度是可变的。排序可变长度的序列以及各种组合优化问题都属于这一类。我们的模型利用最近提出的神经注意机制解决了可变大小输出字典的问题。与之前的注意力尝试不同的是,它不是在每个解码器步骤中使用注意力来融合编码器的隐藏单元以生成上下文向量,而是使用注意力作为指针来选择输入序列中的一个成员作为输出。我们将这种架构称为指针网络(Pointer Net, Ptr-Net)。我们展示了指针网络可以仅通过训练样例来学习三个具有挑战性的几何问题的近似解——寻找平面凸包、计算德劳内三角剖分以及平面旅行商问题。指针网络不仅改进了带有输入注意力的序列到序列模型,还使我们能够推广到可变大小的输出字典。我们证明了所学模型可以泛化到超过其训练最大长度的情况。我们希望这些任务的结果能够鼓励对神经学习在离散问题上的更广泛探索。