
摘要
我们研究了无监督句法分析任务,该任务在不使用语言学注释数据的情况下,将句子中的单词和短语组织成层次结构。我们观察到现有的无监督解析器捕捉到了句法结构的不同方面,这些方面可以被利用来提高无监督解析的性能。为此,我们提出了一种“树平均”(tree averaging)的概念,并基于此进一步提出了一种新的无监督解析集成方法。为了提高推理效率,我们将集成知识提炼到一个学生模型中;这种先集成后提炼的过程是一种有效的方法,可以缓解常见的多教师提炼方法中存在的过度平滑问题。实验结果表明,我们的方法超越了所有先前的方法,在不同的运行、不同的集成组件以及领域迁移条件下,始终表现出其有效性和鲁棒性。