2 个月前

用于改进神经网络命名实体识别的鲁棒词汇特征

Abbas Ghaddar; Philippe Langlais
用于改进神经网络命名实体识别的鲁棒词汇特征
摘要

神经网络方法在命名实体识别(Named-Entity Recognition, NER)中的应用减少了对精心设计特征的需求。尽管一些特征仍然存在于最先进的系统中,但词汇特征大多已被弃用,除了词典(gazetteers)。在这项工作中,我们证明了这种做法是不公平的:实际上,词汇特征非常有用。我们提出将单词和实体类型嵌入到一个低维向量空间中,该向量空间通过利用维基百科进行远监督注释数据训练得到。基于此,我们离线计算每个单词的特征向量表示。当这些表示与普通的循环神经网络模型结合时,可以显著提高性能。我们在ONTONOTES 5.0数据集上达到了新的最先进F1分数87.95,并在过度研究的CONLL-2003数据集上取得了与最先进水平相当的F1分数91.73。

用于改进神经网络命名实体识别的鲁棒词汇特征 | 最新论文 | HyperAI超神经