2 个月前

超越缩放定律:额外增加0.1%的计算资源

Yi Tay; Jason Wei; Hyung Won Chung; Vinh Q. Tran; David R. So; Siamak Shakeri; Xavier Garcia; Huaixiu Steven Zheng; Jinfeng Rao; Aakanksha Chowdhery; Denny Zhou; Donald Metzler; Slav Petrov; Neil Houlsby; Quoc V. Le; Mostafa Dehghani
超越缩放定律:额外增加0.1%的计算资源
摘要

扩大语言模型可以提高性能,但会带来显著的计算成本。本文提出了一种名为UL2R的方法,该方法能够在相对较小的额外计算资源下大幅改进现有的语言模型及其扩展曲线。其核心思想是在现有最先进的大型语言模型(例如PaLM)上继续训练几个步骤,使用UL2的去噪器混合目标。我们展示了在几乎不增加额外计算成本且无需新的数据来源的情况下,能够显著改善大型语言模型在下游指标上的扩展特性。在这篇论文中,我们使用UL2R继续训练PaLM,引入了80亿、620亿和5400亿参数规模的新模型系列,称为U-PaLM。令人印象深刻的是,在5400亿参数规模下,U-PaLM在大约一半的计算预算内达到了与最终版PaLM 5400亿模型相同的性能(即节省了约440万TPUv4小时)。我们进一步展示了这种改进的扩展曲线使得U-PaLM在具有挑战性的BIG-Bench任务中表现出“涌现能力”——例如,在某些任务上,U-PaLM的表现远优于PaLM,或者在较小的规模下(620亿而非5400亿)展现出更好的质量。总体而言,我们在许多少样本设置中展示了U-PaLM优于PaLM的表现,包括英语自然语言处理任务(如常识推理、问答)、带有思维链的推理任务(如GSM8K)、多语言任务(MGSM、TydiQA)、MMLU以及具有挑战性的BIG-Bench任务。最后,我们提供了定性示例,展示U-PaLM在单跨度和多跨度填充方面的新能力。