11 天前
图尔库神经解析流水线:面向CoNLL 2018共享任务的端到端系统
{Niko Miekka, Tapio Salakoski, Akseli Leino, Filip Ginter, Jenna Kanerva}

摘要
本文介绍了图尔库自然语言处理(TurkuNLP)团队在2018年CoNLL共享任务——“从原始文本到通用依存句法(Universal Dependencies)的多语言句法分析”中的参赛方案。与去年相比,本届共享任务新增了两项主要评估指标,用于衡量形态标注(morphological tagging)和词形还原(lemmatization)的准确率,除原有的句法树结构评估外,形成了更全面的评价体系。基于对这些新指标的重视,我们设计并实现了一套端到端的句法分析流水线,特别聚焦于开发一种新颖且处于当前最先进水平的词形还原模块。在参与的26支队伍中,我们的系统在三项主要指标上取得了最高综合排名:在词形还原相关指标中获得第一名,在形态标注和句法分析两项指标中均位列第二。