7 个月前

摘要

共指消解系统通常使用需要仔细调优的启发式损失函数进行训练。在本文中，我们采用强化学习方法直接优化用于共指评估指标的神经提及排序模型。我们实验了两种方法：REINFORCE策略梯度算法和奖励重缩放的最大间隔目标（reward-rescaled max-margin objective）。研究结果表明，后者更为有效，显著提升了当前在CoNLL 2012共享任务的英语和汉语部分的最佳性能。

源 PDF 查看代码