6 个月前

摘要

近年来提出的大多数命名实体识别神经模型均为纯数据驱动型，强调尽可能避免依赖外部资源的收集或人工设计特征。然而，由于模型仅能依赖少量标注数据中的监督信号，缺乏额外的外部信息，这种做法容易导致过拟合，限制了模型在未见实体上的泛化能力。本文表明，合理利用外部词典（gazetteers）能够有效提升序列神经命名实体识别模型的性能。我们在近期提出的混合半马尔可夫CRF架构基础上引入一个简洁的模块，实验结果表明该方法取得了令人鼓舞的效果。

源 PDF 查看代码