
摘要
尽管现代命名实体识别(NER)系统在标准数据集上表现出色,但在面对噪声数据时性能显著下降。尤其值得注意的是,大小写在多种语言中是实体识别的重要线索,而即使是当前最先进的模型也过度依赖这一特征,导致在全小写文本上的表现急剧恶化。本文针对噪声或不确定大小写数据下NER系统鲁棒性不足的问题,提出一种基于预训练的解决方案:通过设计一个预测文本大小写的预训练目标(即真大小写模型,truecaser),充分利用无标注数据进行训练。该预训练的truecaser模型通过将输出分布附加到字符嵌入(character embeddings)的方式,与标准的BiLSTM-CRF NER模型相结合。在多个涵盖不同领域且大小写质量各异的数据集上的实验表明,所提方法显著提升了全小写文本上的识别性能,甚至能为全小写BERT嵌入带来额外增益。本方法在WNUT17共享任务数据集上取得了新的最先进(SOTA)性能。