摘要

我们介绍了通用命名实体识别（Universal NER，简称UNER），这是一个开放的、社区驱动的项目，旨在开发多种语言的黄金标准命名实体识别（NER）基准数据集。UNER的主要目标是提供高质量、跨语言一致的注释，以促进和标准化多语言NER研究。UNER v1 包含了12种不同语言的18个数据集，这些数据集均使用跨语言一致的模式进行了命名实体注释。在本文中，我们详细描述了UNER的数据集创建过程及其组成；同时提供了在单语和跨语学习设置下的初步建模基线。我们向公众发布了数据、代码和训练好的模型。

源 PDF