2 个月前
基于多任务神经网络在社交媒体中建模噪声以识别命名实体
Gustavo Aguilar; A. Pastor López-Monroy; Fabio A. González; Thamar Solorio

摘要
在文档中识别命名实体是许多自然语言处理(NLP)应用的关键任务。尽管当前最先进的方法在干净文本(如新闻稿体裁)上表现出高性能,但当这些算法应用于噪声环境(如社交媒体领域)时,性能会显著下降。本文介绍了两种系统,它们通过使用字符级别的音系学和音韵学特征、词嵌入以及词性标签来应对处理社交媒体数据的挑战。第一个模型是一个多任务端到端双向长短期记忆(BLSTM)-条件随机场(CRF)网络,其输出层包含两个CRF分类器。第二个模型则使用一个多任务BLSTM网络作为特征提取器,将学习结果传递给一个CRF分类器以进行最终预测。我们的系统在2017年噪声用户生成文本研讨会数据集上的F1分数分别比现有最先进方法提高了2.45%和3.69%,为社交媒体环境提供了一种更为合适的方法。