9 天前

LPT:面向图像分类的长尾提示调优

Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo
LPT:面向图像分类的长尾提示调优
摘要

在长尾分类任务中,大多数现有方法通常先在大规模数据集上预训练一个大型模型,随后对整个模型进行微调,以适应长尾数据分布。尽管该策略具有一定的潜力,但对整个预训练模型进行微调往往带来高昂的计算与部署成本,且在不同任务间需部署多个模型,同时容易因过度拟合长尾数据的特定特征而导致模型泛化能力下降。为缓解上述问题,本文提出一种高效且有效的长尾提示调优方法(Long-tailed Prompt Tuning, LPT)。LPT 在冻结的预训练模型基础上引入若干可训练的提示(prompt),以实现对长尾数据的适配。为提升方法的有效性,我们将提示分为两类:1)共享提示(shared prompt),用于整个长尾数据集,以学习通用特征,并将预训练模型适配至目标领域;2)组内特定提示(group-specific prompts),用于捕捉具有相似特征的样本所共有的局部特征,同时增强预训练模型的判别能力。为此,我们设计了一种两阶段训练范式。在第一阶段,通过监督式提示调优训练共享提示,使预训练模型适应目标长尾分布。在第二阶段,利用已学习的共享提示作为查询,从组内特定提示集中筛选出与某组相似样本最匹配的少量提示,以挖掘这些相似样本之间的共性特征;随后采用双重采样策略与非对称图对比学习损失(asymmetric GCL loss)对这些提示进行优化。由于仅需微调少量提示而保持预训练模型冻结,LPT 可显著降低训练与部署成本——只需存储少量提示即可完成模型适配,同时保留了预训练模型强大的泛化能力。实验结果表明,在多个长尾分类基准测试中,LPT 仅引入约 1.1% 的额外参数,即可达到与传统全模型微调方法相当的性能,且在面对领域偏移(domain-shift)时表现出更强的鲁棒性。