摘要
命名实体识别(Named Entity Recognition, NER)是指从一段文本中识别出相关专有名词的过程。本文报告了基于多种嵌入模型开发印地语(Hindi)命名实体识别系统的研究成果,该系统采用天城文(Devanagari)书写形式。我们将嵌入模型分为上下文相关(Contextual)与非上下文相关(Non-contextual)两类,并在此基础上进行类内与类间的对比分析。在非上下文相关嵌入模型中,我们实验了Word2Vec与FastText;在上下文相关嵌入模型中,则采用了BERT及其多种变体,包括RoBERTa、ELECTRA、CamemBERT、Distil-BERT以及XLM-RoBERTa。针对非上下文相关嵌入模型,我们结合五种机器学习算法——高斯朴素贝叶斯(Gaussian NB)、Adaboost分类器、多层感知机分类器(Multi-layer Perceptron Classifier)、随机森林分类器(Random Forest Classifier)和决策树分类器(Decision Tree Classifier),分别构建了十套印地语NER系统:每套系统分别使用FastText和Gensim Word2Vec两种词嵌入模型。随后,将上述基于传统机器学习方法的模型与基于Transformer架构的上下文嵌入NER模型(以BERT及其变体为基础)进行对比。对所有这些NER模型进行了系统性的比较研究。最终,选取表现最优的模型进行部署,并开发了一个Web应用程序。该应用可接收任意长度的印地语文本输入,自动为每个词语标注命名实体标签,并允许用户对标注结果的准确性提供反馈。这些用户反馈将有助于我们后续开展更广泛的数据收集与模型优化工作。