
摘要
我们提出了一种简单但出人意料有效的自训练方法,用于训练一个两阶段的解析器-重排序系统,该方法仅需利用 readily available 的未标注数据。我们证明,当自训练所得的解析结果经过判别式重排序器处理时,这种自举(bootstrapping)在句法解析任务中是可行的。我们改进后的模型在华尔街日报(Wall Street Journal)句法解析任务上取得了92.1%的F值,相比此前最佳结果实现了绝对1.1%的提升(错误率降低12%)。最后,我们进一步提供了相关分析,以更深入地理解该现象背后的机制。