
摘要
命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一项重要任务,旨在识别文本中属于预定义类别的文本片段。传统的NER系统通常忽略嵌套实体(nested entities),即被包含在其他实体提及之内的实体。尽管已有若干方法被提出以应对这一问题,但大多数方法依赖于复杂的、任务特定的模型结构,而忽视了可能具有实用价值的基线方法。我们认为,这种做法容易造成模型性能表现过于乐观的错觉。本文重新审视了多LSTM-CRF(Multiple LSTM-CRF, MLC)模型——一种结构简单、长期被忽视但极具潜力的方法,该方法通过为每种实体类型独立训练序列标注模型来实现识别。在三个嵌套NER语料库上的大量实验表明,尽管模型结构简单,其性能仍优于或至少不逊于更为复杂的现有方法。此外,我们进一步证明,在引入预训练语言模型后,MLC架构在智利候诊名单语料库(Chilean Waiting List corpus)上取得了当前最优(state-of-the-art)的识别效果。同时,我们开发了一个开源工具库,用于计算嵌套NER任务的特定评估指标。实验结果表明,以往研究中采用的评估指标未能有效衡量模型识别嵌套实体的能力;而我们的新指标为现有方法在处理嵌套实体任务时的表现提供了新的实证依据,揭示了当前主流方法在该任务上的实际局限性与优势。