11 天前

D3Former:面向增量学习的去偏双蒸馏Transformer

Abdelrahman Mohamed, Rushali Grandhe, K J Joseph, Salman Khan, Fahad Khan
D3Former:面向增量学习的去偏双蒸馏Transformer
摘要

在类增量学习(Class-Incremental Learning, CIL)设置中,模型在每个学习阶段逐步接收一组新的类别,其目标是构建一个统一的模型,能够对迄今为止所观察到的所有类别均保持良好的性能。随着视觉Transformer(Vision Transformers, ViTs)在传统分类任务中的广泛应用,一个值得关注的问题是:这些模型在持续学习场景下的表现如何?为此,本文提出了一种面向CIL的去偏双蒸馏Transformer模型,命名为$\textrm{D}^3\textrm{Former}$。所提出的$\textrm{D}^3\textrm{Former}$采用混合嵌套式ViT架构设计,兼顾数据效率,并具备在小规模与大规模数据集上良好扩展的能力。与近期基于ViT的CIL方法不同,$\textrm{D}^3\textrm{Former}$在学习新任务时无需动态扩展网络结构,因而能够适应大量增量任务,具有更强的实用性与可扩展性。$\textrm{D}^3\textrm{Former}$在CIL性能上的显著提升,源于对ViT架构的两项根本性改进。其一,我们将增量学习建模为长尾分类问题:新类别中的样本数量远超旧类别所拥有的有限样本(即记忆样本)。为避免模型对样本较少的旧类别产生偏差,我们提出一种动态调整输出logits的方法,以强化对旧任务相关特征表示的保留能力。其二,我们提出在跨任务学习过程中保持空间注意力图的配置结构不变。这一机制有助于通过约束模型对最具判别性的空间区域保持注意力,从而有效缓解灾难性遗忘问题。在CIFAR-100、MNIST、SVHN以及ImageNet等数据集的增量学习版本上,$\textrm{D}^3\textrm{Former}$均取得了优异的性能表现。相关代码已公开,获取地址为:https://tinyurl.com/d3former。

D3Former:面向增量学习的去偏双蒸馏Transformer | 最新论文 | HyperAI超神经