
摘要
当前最先进的共指消解方法在OntoNotes基准测试上取得了日益优异的性能表现。然而,由于缺乏遵循相同标注规范的、涵盖更多语域的可比数据,使得评估这些模型在开放域数据上的泛化能力变得极为困难。本文提供了一个新的数据集及全面的评估实验,结果表明,最新的基于神经语言模型的端到端共指消解系统在域外数据上性能显著下降。我们公开发布了一个名为OntoGUM的共指消解数据集,该数据集由GUM(一个涵盖12种语域的英语语料库)转换而来,转换过程采用确定性规则,并对所生成数据进行了评估。得益于GUM中丰富的句法与语篇标注信息,我们构建了迄今为止规模最大的、严格遵循OntoNotes标注规范的人工标注共指语料库,也是首个针对与OntoNotes标注体系一致性进行评估的此类数据集。在12种不同语域上的域外评估结果显示,无论是确定性方法还是深度学习方法,性能均出现近15%至20%的显著下降,表明现有共指消解模型普遍存在泛化能力不足或隐性过拟合的问题。