
摘要
命名实体识别(Named Entity Recognition, NER)旨在从非结构化文本中识别出命名实体的提及,并将其分类到预定义的命名实体类别中。尽管基于深度学习的预训练语言模型在NER任务中能够实现良好的预测性能,但许多领域特定的NER应用仍需大量标注数据。主动学习(Active Learning, AL)作为一种通用的标签获取框架,已被广泛应用于NER任务,以在不牺牲模型性能的前提下降低标注成本。然而,标记符(tokens)类别分布严重不均衡的问题,给设计高效的AL查询方法带来了挑战。为此,本文提出多种面向句子的AL查询评估函数,更加关注潜在的正样本标记符,并结合基于句子和基于标记符的两种成本评估策略对这些函数进行评估。此外,我们还提出一种更优的数据驱动归一化方法,用于惩罚过长或过短的句子。在三个来自不同领域的数据集上的实验结果表明,所提出的方法在显著减少标注标记数量的同时,仍能实现优于或相当的传统方法的预测性能。