
摘要
命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一项基础任务,通常被建模为对词元(token)序列的分类问题。然而,形态丰富的语言(Morphologically-Rich Languages, MRLs)对这一基本范式构成了挑战,因为命名实体的边界并不必然与词元边界一致,而是遵循形态学边界。因此,在MRLs中开展NER研究,必须回答两个根本性问题:其一,应当以何种基本单元进行标注?其二,在缺乏真实形态标注(即无金标准形态信息)的实际场景下,这些基本单元如何被有效检测与分类?为系统探究上述问题,我们构建了一个新颖的NER基准数据集,针对现代希伯来语(Modern Hebrew)这一典型的形态丰富且具有歧义的语言,提供了并行的词元级与语素级NER标注。实验结果表明,显式建模形态边界能够显著提升NER性能;此外,我们提出一种新颖的混合架构,其中NER任务先于并指导形态分解过程,实现对形态分解的剪枝优化。该方法在性能上大幅超越传统的流水线范式(即形态分解严格先于NER),不仅为希伯来语NER任务树立了新的性能标杆,也显著推动了希伯来语形态分解任务的进展。