
摘要
语言模型(Language Model, LM)的预训练在众多自然语言处理(NLP)下游任务中持续带来性能提升,命名实体识别(Named Entity Recognition, NER)便是其中典型代表。本文提出 T-NER(基于Transformer的命名实体识别),这是一个用于NER任务中语言模型微调的Python库。除了具备实际应用价值外,T-NER还为研究和探索在NER任务上微调后的语言模型在跨领域与跨语言场景下的泛化能力提供了便利。该库还配套提供了一个网页应用程序,用户可输入任意文本并实时获取模型预测结果,从而帮助非专业编程人员进行定性模型评估。为展示该工具的潜力,我们已将九个公开的NER数据集统一整理为标准化格式,并在此基础上评估了模型在跨领域与跨语言场景下的表现。初步实验结果表明,模型在目标领域内的性能在多数数据集上均表现良好,具备较强的竞争力。然而,即便使用大规模预训练语言模型,跨领域泛化仍面临显著挑战;尽管如此,当模型在合并数据集上进行微调时,仍具备学习特定领域特征的能力。为进一步推动后续研究,我们已将所有训练好的语言模型检查点(checkpoints)通过Hugging Face模型库(Hugging Face Model Hub)公开发布,供学术界和工业界自由使用与研究。