摘要
动机:在生物医学研究中,化学物质是一类重要的实体,化学命名实体识别(Chemical Named Entity Recognition, NER)是生物医学信息抽取领域的一项关键任务。然而,目前大多数主流的化学NER方法基于传统机器学习,其性能高度依赖于特征工程。此外,这些方法通常为句子级处理,存在标注不一致的问题。结果:本文提出一种基于神经网络的方法——基于注意力机制的双向长短期记忆网络结合条件随机场层(Attention-based Bidirectional LSTM with Conditional Random Field, Att-BiLSTM-CRF),用于文档级化学物质NER。该方法利用注意力机制获取文档级别的全局信息,以增强同一文档中相同词项在多个实例间的标注一致性。在BioCreative IV化学化合物与药物名称识别(CHEMDNER)数据集以及BioCreative V化学-疾病关系(CDR)任务数据集上的实验表明,该方法在几乎无需人工特征工程的情况下,性能优于其他先进方法,分别取得了91.14%和92.57%的F1分数。可用性与实现:相关数据与代码已公开,可通过 https://github.com/lingluodlut/Att-ChemdNER 获取。联系人:[email protected] 或 [email protected]补充信息:补充数据可在Bioinformatics在线平台获取。