标签监督的LLaMA微调

近年来,大型语言模型(Large Language Models, LLMs)的迅猛发展在学术界和工业界均引发了广泛关注。为提升开源LLMs在零样本(zero-shot)和少样本(few-shot)场景下的泛化能力,研究者们投入了大量精力进行微调(finetuning)。目前,主流方法为指令微调(instruction-tuning),即通过自然语言指令引导模型生成响应,从而训练其完成现实世界中的各类任务。然而值得注意的是,此类方法在序列标注与词元分类任务中表现相对不足。与文本生成任务不同,分类任务的标签空间有限,更强调对标签的精确预测,而非生成多样且类人的响应。已有研究表明,指令微调后的LLMs在性能上难以超越BERT类模型,这促使我们探索利用LLMs隐式表征(latent representations)进行监督式标签预测的潜力。本文提出一种面向标签监督的LLM适应方法(label-supervised adaptation),旨在通过判别性标签对模型进行微调。我们基于Llama-2-7B这一相对小规模的LLM构建了Label Supervised LLaMA(LS-LLaMA)模型,并可在单张GeForce RTX 4090 GPU上完成微调。具体而言,我们从LLaMA模型的最后一层提取隐式表征,并将其投影至标签空间,以计算交叉熵损失。随后,采用低秩适应(Low-Rank Adaptation, LoRA)技术对模型进行微调,以最小化该损失。令人瞩目的是,LS-LLaMA在无需复杂提示工程(prompt engineering)或外部知识支持的前提下,其在文本分类任务上的表现显著优于规模为其十倍的大型语言模型,且在与BERT-Large、RoBERTa-Large等强基线模型的对比中展现出一致性的性能提升。此外,通过移除解码器中的因果掩码(causal mask),我们进一步提出了LS-unLLaMA,在命名实体识别(Named Entity Recognition, NER)任务上达到了当前最优(state-of-the-art)性能。本研究为LLM在多种下游任务中的高效适配提供了一条全新路径,揭示了利用模型内部隐式表征进行监督学习的巨大潜力,具有重要的理论意义与应用价值。