2 个月前
通用NER:一个多语言命名实体识别的金标准基准
Stephen Mayhew; Terra Blevins; Shuheng Liu; Marek Šuppa; Hila Gonen; Joseph Marvin Imperial; Börje F. Karlsson; Peiqin Lin; Nikola Ljubešić; LJ Miranda; Barbara Plank; Arij Riabi; Yuval Pinter

摘要
我们介绍了通用命名实体识别(Universal NER,简称UNER),这是一个开放的、社区驱动的项目,旨在开发多种语言的黄金标准命名实体识别(NER)基准数据集。UNER的主要目标是提供高质量、跨语言一致的注释,以促进和标准化多语言NER研究。UNER v1 包含了12种不同语言的18个数据集,这些数据集均使用跨语言一致的模式进行了命名实体注释。在本文中,我们详细描述了UNER的数据集创建过程及其组成;同时提供了在单语和跨语学习设置下的初步建模基线。我们向公众发布了数据、代码和训练好的模型。