17 天前

HiNER:一个大规模印地语命名实体识别数据集

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER:一个大规模印地语命名实体识别数据集
摘要

命名实体识别(Named Entity Recognition, NER)是自然语言处理(NLP)的一项基础任务,旨在为自由文本中的词语打上类别标签,如“人名”(Person)、“地点”(Location)、“组织机构”(Organisation)、“时间”(Time)和“数字”(Number)等。命名实体也可能表现为多词表达,此时通过附加的I-O-B(Inside-Outside-Beginning)标注信息,有助于在NER标注过程中准确识别和标记这些实体。尽管英语及欧洲语言在NER任务上已有较为丰富的标注数据,但印度语言在这一方面仍显不足——无论是数据规模还是标注标准的遵循程度均存在明显短板。本文发布了一个规模显著、符合标准的印地语NER数据集,包含109,146个句子和2,220,856个词元(tokens),采用11个标签进行标注。我们对数据集的各项统计信息进行了详尽分析,并深入探讨了所使用的NER标签体系。结果显示,该数据集中各标签的分布较为均衡,尤其在“人名”、“地点”和“组织机构”等关键类别上表现良好。衡量资源有效性的重要标准在于:利用该资源构建模型,并在基准数据集上进行测试,与共享任务中的领先成果进行对比。为此,我们基于该数据集开展了相应实验。采用多种语言模型完成NER的序列标注任务,并与在现有印地语NER数据集上训练的模型进行了对比评估。实验结果表明,我们的数据集在所有标签上实现了88.78的加权F1分数,而在标签体系简化(标签合并)后,F1分数提升至92.22,如论文所述。据我们所知,目前尚无任何公开可用的印地语NER数据集在数据体量(规模)和语料多样性(变异性)方面同时达到本研究的水平。本工作填补了这一空白,有望显著推动印地语自然语言处理的发展。为促进研究共享与复现,我们已将该数据集、相关代码及训练模型公开发布于GitHub:https://github.com/cfiltnlp/HiNER。