
摘要
从文本中直接推导语法是计算语言学中最古老且最具挑战性的任务之一。尽管在依存语法的自动推导方面已取得显著进展,但现有模型仍过于简单,尤其与有监督的句法分析模型相比差距明显。本文提出一种基于树替换语法(tree substitution grammar)的依存语法推导方法,能够学习较大的依存语法片段,从而更有效地建模文本结构。我们引入一种分层的非参数Pitman-Yor过程先验,该先验倾向于生成规模较小且产生式简单的语法。实验结果表明,该方法在头词附着准确率(head attachment accuracy)指标上显著优于当前最先进的技术水平。