2 个月前

扩展指令微调的语言模型

Hyung Won Chung; Le Hou; Shayne Longpre; Barret Zoph; Yi Tay; William Fedus; Yunxuan Li; Xuezhi Wang; Mostafa Dehghani; Siddhartha Brahma; Albert Webson; Shixiang Shane Gu; Zhuyun Dai; Mirac Suzgun; Xinyun Chen; Aakanksha Chowdhery; Alex Castro-Ros; Marie Pellat; Kevin Robinson; Dasha Valter; Sharan Narang; Gaurav Mishra; Adams Yu; Vincent Zhao; Yanping Huang; Andrew Dai; Hongkun Yu; Slav Petrov; Ed H. Chi; Jeff Dean; Jacob Devlin; Adam Roberts; Denny Zhou; Quoc V. Le; Jason Wei
扩展指令微调的语言模型
摘要

通过在一系列以指令形式表述的数据集上对语言模型进行微调,已被证明可以提高模型性能并增强其对未见过任务的泛化能力。本文特别探讨了指令微调的三个方面:(1)扩展任务数量,(2)扩展模型规模,以及(3)基于链式思维数据的微调。研究发现,结合上述方面的指令微调显著提升了多种模型类别(PaLM、T5、U-PaLM)、提示设置(零样本、少样本、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成)上的性能。例如,经过1.8K个任务指令微调的Flan-PaLM 540B在多个评估指标上大幅超越了PaLM 540B(平均提升9.4%)。Flan-PaLM 540B在五次提示的MMLU基准测试中达到了75.2%的准确率,实现了当前最佳性能。此外,我们还公开发布了Flan-T5检查点,这些检查点即使与更大规模的模型(如PaLM 62B)相比也表现出强大的少样本性能。总体而言,指令微调是一种普遍适用的方法,能够有效提升预训练语言模型的性能和可用性。

扩展指令微调的语言模型 | 最新论文 | HyperAI超神经