17 天前

机器翻译范式转变:提升大型语言模型的翻译性能

Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
机器翻译范式转变:提升大型语言模型的翻译性能
摘要

生成式大型语言模型(Large Language Models, LLMs)在自然语言处理(NLP)的诸多任务中取得了显著进展。然而,这些进展在机器翻译任务中并未得到充分体现,尤其是在中等规模模型(如70亿或130亿参数)方面,其翻译性能仍落后于传统的监督式编码器-解码器翻译模型。此前的研究尝试提升这类中等规模LLMs的翻译能力,但取得的改进十分有限。在本研究中,我们提出了一种专为翻译任务设计的新型微调方法,该方法无需依赖传统翻译模型所依赖的大量平行语料。我们的方法包含两个微调阶段:首先在单语数据上进行初步微调,随后在少量高质量的平行语料上进行后续微调。基于该策略训练得到的LLM被命名为“基于大语言模型的先进翻译器”(Advanced Language Model-based trAnslator, ALMA)。以LLaMA-2作为基础模型,实验结果表明,ALMA在WMT'21(2个方向)和WMT'22(8个方向)共10个翻译方向的测试集上,相较零样本(zero-shot)性能实现了平均超过12点BLEU和12点COMET的提升。其性能显著优于此前所有相关工作,甚至超越了参数量高达540亿的NLLB-54B模型以及GPT-3.5-text-davinci-003,而模型参数规模仅为70亿或130亿。这一成果为机器翻译领域建立了一种全新的训练范式,具有重要的理论与实践意义。