16 天前

mT5:一种大规模多语言预训练文本到文本转换器

Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel
mT5:一种大规模多语言预训练文本到文本转换器
摘要

最近提出的“文本到文本迁移变换器”(Text-to-Text Transfer Transformer, T5)通过采用统一的文本到文本格式并结合大规模模型规模,在多种英语自然语言处理任务中取得了当时最先进的性能。本文中,我们介绍了mT5,即T5的多语言版本,该模型在基于Common Crawl构建的新数据集上进行了预训练,覆盖了101种语言。我们详细阐述了mT5的设计思路及其改进的训练方法,并在多个多语言基准测试中展示了其达到最先进水平的性能表现。此外,我们提出了一种简单有效的技术,可有效防止在零样本(zero-shot)场景下生成模型出现“意外翻译”现象——即模型错误地(部分地)将其预测结果翻译成目标语言之外的其他语言。本文所使用的所有代码和模型检查点均已公开发布,供学术界和工业界自由使用。