2 个月前

CrossWeigh:从不完美注释中训练命名实体识别器

Zihan Wang; Jingbo Shang; Liyuan Liu; Lihao Lu; Jiacheng Liu; Jiawei Han
CrossWeigh:从不完美注释中训练命名实体识别器
摘要

每个人都会犯错误,人类标注者在为命名实体识别(NER)创建标签时也不例外。这些标签错误可能会损害模型训练并干扰模型比较。在这项研究中,我们深入探讨了一个广泛采用的NER基准数据集——CoNLL03 NER。我们能够在大约5.38%的测试句子中识别出标签错误,考虑到当前最先进的测试F1分数已经接近93%,这一比例相当显著。因此,我们手动纠正了这些标签错误,形成了一个更为干净的测试集。我们在该修正后的测试集上重新评估了流行模型的表现,结果表明与原始测试集上的评估相比更加准确。更重要的是,我们提出了一种简单而有效的框架——CrossWeigh,用于在NER模型训练过程中处理标签错误。具体而言,该框架将训练数据划分为多个部分,并独立训练NER模型以识别每个部分中的潜在错误。然后根据这些识别结果调整训练数据的权重,从而训练最终的NER模型。广泛的实验表明,在三个数据集上将各种NER模型集成到我们提出的框架中可以显著提高性能。所有实现代码和修正后的测试集均可在我们的GitHub仓库获取:https://github.com/ZihanWangKi/CrossWeigh。

CrossWeigh:从不完美注释中训练命名实体识别器 | 最新论文 | HyperAI超神经