
摘要
我们提出了一种新的神经网络模型,用于联合词性标注(POS)和依存句法分析。该模型扩展了著名的BIST图基于依存句法分析器(Kiperwasser和Goldberg,2016),通过引入基于BiLSTM的标注组件来为分析器生成自动预测的词性标签。在基准英语Penn树库上,我们的模型分别获得了94.51%和92.87%的无标依存关系准确率(UAS)和带标依存关系准确率(LAS),相比BIST图基于依存句法分析器提升了1.5%以上的绝对性能,并且达到了97.97%的最先进的词性标注精度。此外,从原始文本解析61个“大型”通用依存树库的实验结果表明,我们的模型在平均词性标注得分上比基线UDPipe(Straka和Straková,2017)高出0.8%,在平均带标依存关系准确率上高出3.6%。另外,利用我们的模型,在生物医学事件提取和意见分析应用中也取得了最先进的下游任务分数。我们的代码及所有预训练模型可在以下地址获取:https://github.com/datquocnguyen/jPTDP