
摘要
我们提出了一种针对实体分析流程中三个核心任务的联合模型:共指消解(文档内提及项聚类)、命名实体识别(粗粒度语义类型标注)以及实体链接(与维基百科实体匹配)。该模型在形式上是一个结构化条件随机场(structured conditional random field)。模型中的单变量因子编码了各任务强基线方法所提取的局部特征,随后引入二元和三元因子以捕捉任务间的交互关系,例如共指提及项必须具有相同语义类型的约束。在ACE 2005和OntoNotes数据集上的实验结果表明,该模型在三个任务上均取得了当前最优性能。此外,相较于强独立基线模型,联合建模显著提升了各任务的性能表现。