HyperAI超神经

摘要

命名实体识别（Named Entity Recognition, NER）是自然语言处理（NLP）的一项基础任务，旨在为自由文本中的词语打上类别标签，如“人名”（Person）、“地点”（Location）、“组织机构”（Organisation）、“时间”（Time）和“数字”（Number）等。命名实体也可能表现为多词表达，此时通过附加的I-O-B（Inside-Outside-Beginning）标注信息，有助于在NER标注过程中准确识别和标记这些实体。尽管英语及欧洲语言在NER任务上已有较为丰富的标注数据，但印度语言在这一方面仍显不足——无论是数据规模还是标注标准的遵循程度均存在明显短板。本文发布了一个规模显著、符合标准的印地语NER数据集，包含109,146个句子和2,220,856个词元（tokens），采用11个标签进行标注。我们对数据集的各项统计信息进行了详尽分析，并深入探讨了所使用的NER标签体系。结果显示，该数据集中各标签的分布较为均衡，尤其在“人名”、“地点”和“组织机构”等关键类别上表现良好。衡量资源有效性的重要标准在于：利用该资源构建模型，并在基准数据集上进行测试，与共享任务中的领先成果进行对比。为此，我们基于该数据集开展了相应实验。采用多种语言模型完成NER的序列标注任务，并与在现有印地语NER数据集上训练的模型进行了对比评估。实验结果表明，我们的数据集在所有标签上实现了88.78的加权F1分数，而在标签体系简化（标签合并）后，F1分数提升至92.22，如论文所述。据我们所知，目前尚无任何公开可用的印地语NER数据集在数据体量（规模）和语料多样性（变异性）方面同时达到本研究的水平。本工作填补了这一空白，有望显著推动印地语自然语言处理的发展。为促进研究共享与复现，我们已将该数据集、相关代码及训练模型公开发布于GitHub：https://github.com/cfiltnlp/HiNER。

摘要

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HiNER：一个大规模印地语命名实体识别数据集

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HiNER：一个大规模印地语命名实体识别数据集

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HiNER：一个大规模印地语命名实体识别数据集

Rudra Murthy Pallab Bhattacharjee Rahul Sharnagat Jyotsana Khatri Diptesh Kanojia Pushpak Bhattacharyya

摘要

用 AI 构建 AI

HyperAI Newsletters