
摘要
将句子解析为句法树可为自然语言处理中的下游应用带来显著益处。基于转换的解析器通过在状态转移系统中执行一系列操作来构建句法树,具有计算效率高、可结合机器学习方法根据部分树结构预测下一步操作的优点。然而,现有的基于转换的解析器主要基于“移进-规约”(shift-reduce)转换系统,这一机制与人类实际解析句子的方式并不一致。心理语言学研究表明,人类的句法解析具有强烈的增量性:在每一步中,人类仅通过添加一个词元来逐步扩展单一的句法树。本文提出一种新型的转换系统——“attach-juxtapose”(附着-并置),该系统具有严格的增量性特征:它使用单一树结构表示部分句子,且每一步操作恰好向部分树中添加一个词元。基于此转换系统,我们构建了一种强增量式解析器。在每一步中,该解析器利用图神经网络对当前部分树进行编码,并据此预测下一步操作。我们在宾夕法尼亚树库(Penn Treebank, PTB)和中文树库(Chinese Treebank, CTB)上对所提出的解析器进行了评估。在PTB数据集上,该方法在仅使用成分结构树进行训练的情况下,性能优于现有解析器;其表现与那些利用依存结构树作为额外训练数据的最先进解析器相当。在CTB数据集上,该方法取得了新的最优性能,达到了当前的最先进水平。相关代码已公开,地址为:https://github.com/princeton-vl/attach-juxtapose-parser。