17 天前

Few-NERD:一个少样本命名实体识别数据集

Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu
Few-NERD:一个少样本命名实体识别数据集
摘要

近年来,关于少样本命名实体识别(Few-Shot Named Entity Recognition, NER)的研究文献不断增多,但针对实际且具有挑战性的任务,公开发表的基准数据集却极为有限。当前大多数方法通常采用现有的监督式NER数据集,将其重新组织为少样本设置以开展实证研究。这类方法传统上旨在利用少量样本识别粗粒度的实体类型,然而在实际应用中,大多数未见实体类型往往属于细粒度类别。为此,本文提出了Few-NERD,一个大规模人工标注的少样本NER数据集,其包含8个粗粒度和66个细粒度的实体类型层级结构。Few-NERD共包含来自维基百科的188,238条句子,总计4,601,160个词,每条语句均被标注为上下文信息或两个层级实体类型的组成部分。据我们所知,Few-NERD是首个专门面向少样本NER任务的数据集,同时也是目前规模最大的人工构建NER数据集。我们设计了多种侧重不同的基准任务,以全面评估模型的泛化能力。大量实验结果与深入分析表明,Few-NERD具有较高的挑战性,该问题仍需进一步研究。我们已将Few-NERD公开发布,访问地址为:https://ningding97.github.io/fewnerd/。

Few-NERD:一个少样本命名实体识别数据集 | 最新论文 | HyperAI超神经