17 天前

少样本参数高效微调优于且成本低于上下文学习

Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel

摘要

少样本上下文学习（Few-shot In-Context Learning, ICL）使预训练语言模型能够在无需基于梯度的微调的情况下，仅通过将少量示例作为输入，即可完成此前未见过的任务。然而，ICL在每次预测时都需要处理全部训练样本，因此带来了显著的计算、内存和存储开销。参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）提供了一种替代范式，通过仅训练少量新增参数（如适配器模块、提示调优、稀疏更新方法等），即可使模型具备完成新任务的能力。在本文中，我们对少样本ICL与PEFT进行了严谨的对比分析，结果表明，PEFT不仅在准确率上表现更优，而且计算成本大幅降低。在此过程中，我们提出了一种新型PEFT方法——（IA）³，该方法通过可学习的向量对激活值进行缩放，在仅引入极少量新增参数的前提下，实现了更强的性能表现。此外，我们基于T0模型提出了一种简单实用的通用方法——T-Few，该方法无需针对特定任务进行调优或修改，即可直接应用于新任务。我们在RAFT基准测试中对T-Few进行了验证，首次在完全未见过的任务上实现了超越人类的表现，并相较当前最先进方法取得了6个百分点的绝对性能提升。本文所有实验所用代码均已公开。