6 个月前

摘要

少样本类增量学习（Few-Shot Class Incremental Learning, FSCIL）是一项要求模型在仅提供每类少量样本的情况下，持续学习新类别且不遗忘旧知识的任务。FSCIL面临两大核心挑战：灾难性遗忘（catastrophic forgetting）与过拟合（overfitting）。为应对这些挑战，以往研究多依赖于浅层模型（如ResNet-18），尽管其有限的模型容量在一定程度上缓解了遗忘与过拟合问题，却导致在少样本增量学习过程中知识迁移能力不足。本文提出，经过大规模数据预训练的大型模型（如视觉-语言Transformer）具备成为高效少样本增量学习者的潜力。为此，我们提出一种新型FSCIL框架——PriViLege（Pre-trained Vision and Language transformers with prompting functions and knowledge distillation）。该框架通过引入预训练知识调优（Pre-trained Knowledge Tuning, PKT）机制，以及两种新型损失函数——基于熵的差异损失（entropy-based divergence loss）与语义知识蒸馏损失（semantic knowledge distillation loss），有效解决了大型模型在增量学习中面临的灾难性遗忘与过拟合问题。实验结果表明，所提出的PriViLege在多个基准数据集上显著超越现有最先进方法，性能提升显著：在CUB200上提升9.38%，在CIFAR-100上提升20.58%，在miniImageNet上提升13.36%。项目代码已开源，可访问 https://github.com/KHU-AGI/PriViLege 获取。

源 PDF