
摘要
命名实体识别(Named Entity Recognition, NER)旨在从原始文本中识别出带有类型标注的实体提及。尽管该任务已相对成熟,但目前尚无统一的标注体系:通常情况下,数据集的标注是为特定下游应用而设计的,因此仅涵盖与特定任务相关的有限实体类型。例如,在生物医学领域,某一语料库可能仅标注基因,另一语料库标注化学物质,而第三个语料库则标注疾病——尽管这些语料库中的文本实际上均包含三类实体的提及。本文提出一种深度结构化模型,用于整合这些“部分标注”的数据集,从而在训练语料中联合识别所有出现的实体类型。通过利用多个数据集,模型能够学习到更加稳健的输入表示;同时,通过构建联合结构化模型,避免了在测试阶段合并多个模型预测时可能出现的冲突问题。实验结果表明,当在多个部分标注的数据集上进行训练,并在包含多个训练语料中标签类型的测试集上评估时,所提出的模型显著优于现有的强基准多任务学习方法。