17 天前
少样本参数高效微调优于且成本低于上下文学习
Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel

摘要
少样本上下文学习(Few-shot In-Context Learning, ICL)使预训练语言模型能够在无需基于梯度的微调的情况下,仅通过将少量示例作为输入,即可完成此前未见过的任务。然而,ICL在每次预测时都需要处理全部训练样本,因此带来了显著的计算、内存和存储开销。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)提供了一种替代范式,通过仅训练少量新增参数(如适配器模块、提示调优、稀疏更新方法等),即可使模型具备完成新任务的能力。在本文中,我们对少样本ICL与PEFT进行了严谨的对比分析,结果表明,PEFT不仅在准确率上表现更优,而且计算成本大幅降低。在此过程中,我们提出了一种新型PEFT方法——(IA)³,该方法通过可学习的向量对激活值进行缩放,在仅引入极少量新增参数的前提下,实现了更强的性能表现。此外,我们基于T0模型提出了一种简单实用的通用方法——T-Few,该方法无需针对特定任务进行调优或修改,即可直接应用于新任务。我们在RAFT基准测试中对T-Few进行了验证,首次在完全未见过的任务上实现了超越人类的表现,并相较当前最先进方法取得了6个百分点的绝对性能提升。本文所有实验所用代码均已公开。