
命名实体识别(Named Entity Recognition, NER)是自然语言处理中的基础任务,旨在识别文本中的命名实体并对其进行分类。然而,尽管孟加拉语是全球使用人数第七多的语言,针对该语言的复杂命名实体识别研究仍相对匮乏。复杂命名实体识别(Complex NER, CNER)相较于传统NER更具挑战性,因其需要识别和分类复杂且复合的实体类型,而这类实体在孟加拉语中并不常见。本文介绍了在“孟加拉语复杂命名实体识别挑战赛”(Bangla Complex Named Entity Recognition Challenge)中的获奖解决方案,该方案针对BanglaCoNER数据集上的CNER任务,采用了两种不同的方法:条件随机场(Conditional Random Fields, CRF)以及基于Transformer架构的预训练模型微调方法,如BanglaBERT。该数据集包含15,300条用于训练的句子和800条用于验证的句子,格式为.conll。对数据集进行探索性数据分析(Exploratory Data Analysis, EDA)发现,数据集中共包含7种NER标签,且存在显著的英文词汇占比,表明该数据集具有合成性质,极有可能源自翻译生成。在实验中,我们尝试了多种特征组合,包括词性标注(Part of Speech, POS)、词尾特征、地名词典(Gazetteers)以及嵌入向量聚类信息,并对BanglaBERT(large)模型进行了针对NER任务的微调。研究发现,并非所有语言模式对人类而言都显而易见或直观,这也正是深度学习模型在自然语言处理任务中,包括CNER任务中表现更为优越的原因。我们微调后的BanglaBERT(large)模型在验证集上取得了0.79的F1分数。总体而言,本研究凸显了孟加拉语复杂命名实体识别的重要性,尤其是在合成数据集背景下的应用价值。研究结果进一步验证了BanglaBERT等深度学习模型在孟加拉语命名实体识别任务中的有效性与潜力。