2 个月前

75 种语言，1 个模型：普遍依存分析的通用解析

Dan Kondratyuk; Milan Straka

摘要

我们介绍了UDify，这是一种多语言多任务模型，能够同时为75种语言中的124个通用依存树库准确预测通用词性（UPOS）、形态特征（UFeats）、词元（Lemmas）和依存树。通过利用在104种语言上预训练的多语言BERT自注意力模型，我们发现，在所有数据集上进行微调并为每个通用依存任务使用简单的softmax分类器，可以实现最先进的UPOS、UFeats、Lemmas、UAS和LAS分数，而无需任何递归或特定于语言的组件。我们对UDify进行了多语言学习评估，结果显示低资源语言从跨语言注释中受益最大。此外，我们还对其进行了零样本学习评估，结果表明，即使对于UDify和BERT从未训练过的语言，多语言训练也能提供强大的通用依存预测。UDify的代码可在https://github.com/hyperparticle/udify 获取。