17 天前

OPT-IML:通过泛化视角实现语言模型指令元学习的扩展

Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O&#39, Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan, Asli Celikyilmaz, Luke Zettlemoyer, Ves Stoyanov
OPT-IML:通过泛化视角实现语言模型指令元学习的扩展
摘要

近期研究发现,通过对大规模预训练语言模型在一系列通过指令描述的任务集合上进行微调(即指令微调,instruction-tuning),可显著提升其在未见任务上的零样本(zero-shot)与少样本(few-shot)泛化能力。然而,目前对指令微调过程中各项决策所带来性能权衡的理解仍较为有限。这些决策包括:指令微调基准数据集的规模与多样性、不同任务采样策略、是否使用示例(demonstrations)进行微调、是否采用专门用于推理与对话任务的训练数据,以及微调目标函数本身的选择等。本文系统地分析了在模型规模与基准数据集规模同时扩展的情况下,各类指令微调决策对下游任务性能的影响。为此,我们构建了 OPT-IML Bench:一个面向指令元学习(Instruction Meta-Learning, IML)的大规模基准数据集,涵盖来自8个现有基准的2000个自然语言处理任务,并将其归类为若干任务类别。我们还设计了一套评估框架,用于衡量模型在三种不同场景下的泛化能力:对完全未见类别中任务的泛化、对已见类别中未见任务的泛化,以及对已见任务中未见实例的泛化。基于该评估框架,我们首先对 OPT-30B 模型在指令微调过程中的各项决策进行了深入分析,并进一步利用这些洞察训练出 OPT-IML 30B 和 OPT-IML 175B 两个模型——二者均为 OPT 系列模型的指令微调版本。实验结果表明,OPT-IML 在两个规模下均展现出三种泛化能力,其性能在四个具有多样化任务类型与输入格式的评估基准(PromptSource、FLAN、Super-NaturalInstructions 与 UnifiedSKG)上均表现优异。与原始 OPT 模型相比,OPT-IML 在所有基准上均实现显著性能提升;同时,其表现也与在各个特定基准上专门微调的现有先进模型具有高度竞争力。我们已将 OPT-IML 在 30B 和 175B 两个规模下的模型及配套的 OPT-IML Bench 评估框架开源发布,以促进指令学习与通用泛化能力的研究。