
摘要
我们介绍了UDify,这是一种多语言多任务模型,能够同时为75种语言中的124个通用依存树库准确预测通用词性(UPOS)、形态特征(UFeats)、词元(Lemmas)和依存树。通过利用在104种语言上预训练的多语言BERT自注意力模型,我们发现,在所有数据集上进行微调并为每个通用依存任务使用简单的softmax分类器,可以实现最先进的UPOS、UFeats、Lemmas、UAS和LAS分数,而无需任何递归或特定于语言的组件。我们对UDify进行了多语言学习评估,结果显示低资源语言从跨语言注释中受益最大。此外,我们还对其进行了零样本学习评估,结果表明,即使对于UDify和BERT从未训练过的语言,多语言训练也能提供强大的通用依存预测。UDify的代码可在https://github.com/hyperparticle/udify 获取。