6 个月前

摘要

命名实体识别（Named Entity Recognition, NER）是自然语言处理中的一项基础任务，通常被建模为对词元（token）序列的分类问题。然而，形态丰富的语言（Morphologically-Rich Languages, MRLs）对这一基本范式构成了挑战，因为命名实体的边界并不必然与词元边界一致，而是遵循形态学边界。因此，在MRLs中开展NER研究，必须回答两个根本性问题：其一，应当以何种基本单元进行标注？其二，在缺乏真实形态标注（即无金标准形态信息）的实际场景下，这些基本单元如何被有效检测与分类？为系统探究上述问题，我们构建了一个新颖的NER基准数据集，针对现代希伯来语（Modern Hebrew）这一典型的形态丰富且具有歧义的语言，提供了并行的词元级与语素级NER标注。实验结果表明，显式建模形态边界能够显著提升NER性能；此外，我们提出一种新颖的混合架构，其中NER任务先于并指导形态分解过程，实现对形态分解的剪枝优化。该方法在性能上大幅超越传统的流水线范式（即形态分解严格先于NER），不仅为希伯来语NER任务树立了新的性能标杆，也显著推动了希伯来语形态分解任务的进展。

源 PDF