11 天前

语义-视觉引导的Transformer用于少样本类增量学习

Wenhao Qiu, Sichao Fu, Jingyi Zhang, Chengxiang Lei, Qinmu Peng

摘要

少样本类增量学习（Few-shot Class-Incremental Learning, FSCIL）近年来在多个领域受到广泛关注。现有FSCIL方法高度依赖于在基础类上预训练的特征主干网络的鲁棒性。近年来，各类Transformer变体在大规模领域的特征表示学习中取得了显著进展。然而，Transformer在FSCIL场景中的进展尚未达到其在其他领域所展现出的潜力。本文提出一种语义-视觉引导的Transformer模型（Semantic-Visual Guided Transformer, SV-T），旨在提升预训练特征主干网络在增量类上的特征提取能力。具体而言，我们首先利用基础类提供的视觉（图像）标签来监督Transformer的优化过程；随后引入一个文本编码器，自动为每个基础类图像生成对应的语义（文本）标签；最后，将构建的语义标签进一步用于指导Transformer的超参数更新。所提出的SV-T能够充分挖掘来自基础类的更多监督信息，显著增强特征主干网络的训练鲁棒性。更重要的是，SV-T是一种独立的通用方法，可直接应用于现有的FSCIL架构中，用于获取各类增量类的嵌入表示。在三个基准数据集、两种FSCIL架构以及两种Transformer变体上的大量实验表明，与现有最先进FSCIL方法相比，本文提出的SV-T实现了显著的性能提升。