15 天前

DOCmT5:多语言LLM的文档级预训练

Chia-Hsuan Lee, Aditya Siddhant, Viresh Ratnakar, Melvin Johnson
DOCmT5:多语言LLM的文档级预训练
摘要

本文介绍了DOCmT5,一种基于大规模平行文档进行预训练的多语言序列到序列语言模型。与以往主要依赖句子级别平行数据的方法不同,我们致力于构建一个通用的预训练模型,使其能够理解和生成长篇文档。为此,我们提出了一种简单而有效的预训练目标——文档重排序机器翻译(Document Reordering Machine Translation, DrMT),该方法将输入文档进行打乱和掩码处理后,要求模型完成翻译任务。在多种文档级生成任务上,DrMT相较于强基线模型均取得了稳定提升,具体表现为:在已见语言对的文档级机器翻译任务中,BLEU分数提升超过12点;在未见语言对的文档级机器翻译任务中,BLEU分数提升超过7点;在已见语言对的跨语言摘要任务中,ROUGE-1分数提升超过3点。我们在WMT20 De-En和IWSLT15 Zh-En文档翻译任务上均达到了当前最优(SOTA)性能。此外,我们还对文档预训练中的多个关键因素进行了深入分析,包括:(1)预训练数据质量的影响;(2)单语与跨语言预训练相结合的效果。我们计划将模型检查点公开发布,以促进相关研究的发展。

DOCmT5:多语言LLM的文档级预训练 | 最新论文 | HyperAI超神经