利用自注意力机制在大语言模型中实现输入依赖的软提示
Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay
发布日期: 6/9/2025

摘要
大型语言模型在特定领域的任务中表现出色,但需要进行微调,这在计算上成本高昂且技术上具有挑战性。本文重点研究了参数高效的微调方法,特别是软提示(soft prompting)技术,这是一种通过学习少量参数来适应预训练模型以完成下游任务的有前景的方法。我们提出了一种新颖的基于输入的软提示技术——带有自注意力机制的输入依赖软提示(Input Dependent Soft Prompting with a Self-Attention Mechanism, ID-SPAM),该技术根据输入标记生成软提示,并以不同的重要性关注不同的标记。我们的方法简单高效,保持了可训练参数的数量较少。我们在多种任务中展示了所提方法相对于现有最先进技术的优势,并证明了其在零样本领域迁移能力方面的提升。