17 天前

长命名实体识别中的正则化

Minbyul Jeong, Jaewoo Kang
长命名实体识别中的正则化
摘要

在进行命名实体识别(Named Entity Recognition, NER)任务时,实体长度具有可变性,且高度依赖于特定领域或数据集。预训练语言模型(Pre-trained Language Models, PLMs)虽广泛应用于NER任务,但往往倾向于学习数据集中的固有模式,如实体长度分布、表面形式特征以及类别分布的偏斜。这些偏差会削弱PLMs在真实场景中对未见提及(unseen mentions)的泛化能力。为此,我们提出一种新颖的去偏方法——RegLER,以提升模型对不同长度实体的预测性能。为更贴近真实应用场景,我们在包含未见提及集合的分块基准数据集上对PLMs进行评估,结果表明,RegLER在长实体识别方面表现显著优于基线方法,尤其在通过消除实体内部连接词或特殊字符带来的偏差方面效果突出。此外,大多数NER数据集中存在严重的类别不平衡问题,导致训练过程中“简单负例”(如“the”)占据主导地位。我们的方法通过降低这些简单负例的影响,有效缓解了类别分布偏斜问题。在生物医学与通用领域上的大量实验验证了所提方法出色的泛化能力。为促进研究的可复现性及未来工作开展,我们已公开全部代码,项目地址为:https://github.com/minstar/RegLER。