2 个月前

社交媒体数据中的命名实体识别的多任务方法

Gustavo Aguilar; Suraj Maharjan; Adrian Pastor López-Monroy; Thamar Solorio
社交媒体数据中的命名实体识别的多任务方法
摘要

社交媒体数据中的命名实体识别具有挑战性,因为其固有的噪声特性。除了语法结构不规范外,社交媒体数据还包含拼写不一致和大量非正式缩写。我们提出了一种新颖的多任务方法,通过结合主要任务——细粒度命名实体(NE)分类——和一个更为通用的次要任务——命名实体分割。该多任务神经网络架构从单词和字符序列中学习高层次特征表示,并结合基本的词性标签和词汇表信息。这一神经网络作为特征提取器,为条件随机场分类器提供输入。在第三届噪声用户生成文本研讨会(WNUT-2017)上,我们的方法在实体F1分数达到41.86%,表面F1分数达到40.24%,取得了第一名的成绩。