
摘要
我们展示了在多种语言和一系列预训练条件下,短语结构分析(constituency parsing)可以从无监督预训练中获益。首先,我们比较了对于英语而言,不进行预训练、使用fastText、ELMo和BERT的效果,发现BERT在很大程度上由于模型容量的增加而优于ELMo,而ELMo又优于非上下文的fastText嵌入。此外,我们还发现,在测试的所有11种语言中,预训练都是有益的;然而,大型模型(超过1亿参数)使得为每种语言单独训练模型在计算上变得非常昂贵。为了克服这一缺点,我们证明了联合多语言预训练和微调可以在最终模型中共享除少量参数外的所有参数,从而实现十种语言之间的共享。与为每种语言单独微调一个模型相比,模型大小减少了10倍,但总体相对误差仅增加了3.2%。我们进一步探讨了联合微调的概念,并表明这为低资源语言提供了一种从其他语言的大数据集中受益的方法。最后,我们展示了11种语言的新最先进结果,包括英语(F1得分为95.8)和中文(F1得分为91.8)。