11 天前

语义-视觉引导的Transformer用于少样本类增量学习

Wenhao Qiu, Sichao Fu, Jingyi Zhang, Chengxiang Lei, Qinmu Peng
语义-视觉引导的Transformer用于少样本类增量学习
摘要

少样本类增量学习(Few-shot Class-Incremental Learning, FSCIL)近年来在多个领域受到广泛关注。现有FSCIL方法高度依赖于在基础类上预训练的特征主干网络的鲁棒性。近年来,各类Transformer变体在大规模领域的特征表示学习中取得了显著进展。然而,Transformer在FSCIL场景中的进展尚未达到其在其他领域所展现出的潜力。本文提出一种语义-视觉引导的Transformer模型(Semantic-Visual Guided Transformer, SV-T),旨在提升预训练特征主干网络在增量类上的特征提取能力。具体而言,我们首先利用基础类提供的视觉(图像)标签来监督Transformer的优化过程;随后引入一个文本编码器,自动为每个基础类图像生成对应的语义(文本)标签;最后,将构建的语义标签进一步用于指导Transformer的超参数更新。所提出的SV-T能够充分挖掘来自基础类的更多监督信息,显著增强特征主干网络的训练鲁棒性。更重要的是,SV-T是一种独立的通用方法,可直接应用于现有的FSCIL架构中,用于获取各类增量类的嵌入表示。在三个基准数据集、两种FSCIL架构以及两种Transformer变体上的大量实验表明,与现有最先进FSCIL方法相比,本文提出的SV-T实现了显著的性能提升。