
摘要
背景:鉴于从生物医学研究出版物中提取关系或事件对于支持知识捕获和综合的重要性,以及这些信息提取方法对句法信息的高度依赖性,了解在生物医学文本句法处理方面表现最佳的方法具有重要价值。结果:我们进行了一项实证研究,比较了两种核心自然语言处理任务——词性标注(POS tagging)和依存句法分析(dependency parsing)的最新传统特征模型和神经网络模型在两个基准生物医学语料库GENIA和CRAFT上的性能。据我们所知,目前没有最近的研究在生物医学背景下进行此类比较;特别是缺乏对这些数据的神经模型的详细分析。实验结果显示,总体而言,神经模型在这两个基准生物医学语料库GENIA和CRAFT上的表现优于特征模型。我们还进行了面向任务的评估,以调查这些模型在下游生物医学事件提取应用中的影响,并表明更好的内在解析性能并不总是意味着更好的外在事件提取性能。结论:我们在生物医学背景下详细比较了传统特征模型和神经网络模型在词性标注和依存句法分析方面的性能,并探讨了选择不同解析器对下游生物医学事件提取任务的影响。数据和材料的可用性:我们已将重新训练的模型发布在https://github.com/datquocnguyen/BioPosDep。