
摘要
当一个实体名称包含其他名称时,识别所有名称组合可能会变得困难且成本高昂。我们提出了一种新方法,不仅能够识别最外层的命名实体,还能识别内部嵌套的命名实体。为此,我们设计了一个目标函数来训练神经模型,该模型将嵌套实体的标签序列视为其父实体范围内的次优路径。此外,我们还提供了一种解码方法用于推理,该方法以从外到内的方式迭代提取实体,首先从最外层的实体开始,逐步深入到内部实体。我们的方法在条件随机场(Conditional Random Field, CRF)模型基础上没有增加额外的超参数,而CRF模型广泛应用于平面命名实体识别任务。实验结果表明,我们的方法在处理嵌套实体方面优于或至少与现有方法相当,在ACE-2004、ACE-2005和GENIA数据集上分别达到了85.82%、84.34%和77.36%的F1分数。