
摘要
近年来,神经网络模型在共指消解任务上取得了显著进展。然而,当前的神经共指消解模型通常采用基于启发式规则的损失函数进行训练,该损失函数基于一系列局部决策进行计算。本文提出一种基于端到端强化学习的共指消解模型,旨在直接优化共指消解的评估指标。具体而言,我们对Lee等人(2018)提出的先进高阶提及排序方法进行了改进,通过引入与一系列共指链接动作相关的奖励信号,将其转化为强化学习中的策略梯度模型。此外,为促进充分探索并防止模型过早收敛至次优局部最优解,我们引入了最大熵正则化机制。所提出的模型在英文OntoNotes v5.0基准测试上取得了新的最先进性能。