HyperAIHyperAI

Command Palette

Search for a command to run...

语义-视觉引导的Transformer用于少样本类增量学习

Wenhao Qiu Sichao Fu Jingyi Zhang Chengxiang Lei Qinmu Peng

摘要

少样本类增量学习(Few-shot Class-Incremental Learning, FSCIL)近年来在多个领域受到广泛关注。现有FSCIL方法高度依赖于在基础类上预训练的特征主干网络的鲁棒性。近年来,各类Transformer变体在大规模领域的特征表示学习中取得了显著进展。然而,Transformer在FSCIL场景中的进展尚未达到其在其他领域所展现出的潜力。本文提出一种语义-视觉引导的Transformer模型(Semantic-Visual Guided Transformer, SV-T),旨在提升预训练特征主干网络在增量类上的特征提取能力。具体而言,我们首先利用基础类提供的视觉(图像)标签来监督Transformer的优化过程;随后引入一个文本编码器,自动为每个基础类图像生成对应的语义(文本)标签;最后,将构建的语义标签进一步用于指导Transformer的超参数更新。所提出的SV-T能够充分挖掘来自基础类的更多监督信息,显著增强特征主干网络的训练鲁棒性。更重要的是,SV-T是一种独立的通用方法,可直接应用于现有的FSCIL架构中,用于获取各类增量类的嵌入表示。在三个基准数据集、两种FSCIL架构以及两种Transformer变体上的大量实验表明,与现有最先进FSCIL方法相比,本文提出的SV-T实现了显著的性能提升。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供