2 个月前

mGPT:少样本学习者走向多语言

Oleh Shliazhko; Alena Fenogenova; Maria Tikhonova; Vladislav Mikhailov; Anastasia Kozlova; Tatiana Shavrina
mGPT:少样本学习者走向多语言
摘要

近期的研究报告指出,自回归语言模型可以通过零样本和少样本学习范式成功解决许多自然语言处理(NLP)任务,这为使用预训练语言模型开辟了新的可能性。本文介绍了两种类似GPT的自回归模型,分别具有13亿和130亿参数,这些模型在25个语系的60种语言上进行了训练,数据来源包括维基百科和巨量干净爬取语料库(Colossal Clean Crawled Corpus)。我们利用GPT-2的源代码重现了GPT-3的架构,并采用了稀疏注意力机制;Deepspeed和Megatron框架使我们能够高效地并行化训练和推理步骤。最终生成的模型性能与Facebook最近发布的XGLM模型相当,覆盖了更多的语言,并增强了独联体国家及俄罗斯少数民族低资源语言的自然语言处理能力。本文详细阐述了架构设计选择的动机,全面描述了数据准备流程,并训练了五个小型版本的模型以选择最优的多语言分词策略。我们在所有涵盖的语言中测量了模型的困惑度,并对其在广泛的多语言任务上的表现进行了评估,包括分类、生成、序列标注和知识探针任务。评估方法包括零样本和少样本方法。此外,我们将分类任务的表现与最先进的多语言模型XGLM进行了对比。源代码和mGPT XL模型已公开发布。

mGPT:少样本学习者走向多语言 | 最新论文 | HyperAI超神经