HyperAIHyperAI

Command Palette

Search for a command to run...

Few-NERD:一个少样本命名实体识别数据集

Ning Ding Guangwei Xu Yulin Chen Xiaobin Wang Xu Han Pengjun Xie Hai-Tao Zheng Zhiyuan Liu

摘要

近年来,关于少样本命名实体识别(Few-Shot Named Entity Recognition, NER)的研究文献不断增多,但针对实际且具有挑战性的任务,公开发表的基准数据集却极为有限。当前大多数方法通常采用现有的监督式NER数据集,将其重新组织为少样本设置以开展实证研究。这类方法传统上旨在利用少量样本识别粗粒度的实体类型,然而在实际应用中,大多数未见实体类型往往属于细粒度类别。为此,本文提出了Few-NERD,一个大规模人工标注的少样本NER数据集,其包含8个粗粒度和66个细粒度的实体类型层级结构。Few-NERD共包含来自维基百科的188,238条句子,总计4,601,160个词,每条语句均被标注为上下文信息或两个层级实体类型的组成部分。据我们所知,Few-NERD是首个专门面向少样本NER任务的数据集,同时也是目前规模最大的人工构建NER数据集。我们设计了多种侧重不同的基准任务,以全面评估模型的泛化能力。大量实验结果与深入分析表明,Few-NERD具有较高的挑战性,该问题仍需进一步研究。我们已将Few-NERD公开发布,访问地址为:https://ningding97.github.io/fewnerd/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供