9 天前

基于视觉Transformer的学习不平衡数据

Zhengzhuo Xu, Ruikang Liu, Shuo Yang, Zenghao Chai, Chun Yuan
基于视觉Transformer的学习不平衡数据
摘要

真实世界的数据通常存在严重的类别不平衡问题,这会显著扭曲数据驱动的深度神经网络性能,使得长尾识别(Long-Tailed Recognition, LTR)成为一个极具挑战性的任务。现有LTR方法极少在长尾数据上从头训练视觉Transformer(Vision Transformers, ViTs),而直接使用现成的预训练权重往往导致不公平的比较。本文系统地研究了ViTs在LTR任务中的表现,并提出LiVT,一种仅使用长尾数据从零开始训练ViTs的新方法。基于观察发现,ViTs在长尾识别任务中面临更为严峻的挑战,我们引入掩码生成式预训练(Masked Generative Pretraining, MGP),以学习更具泛化能力的特征表示。通过充分且坚实的实验证据,我们证明MGP在鲁棒性方面显著优于传统的监督学习方式。此外,尽管二元交叉熵(Binary Cross Entropy, BCE)损失在ViTs上表现出色,但在长尾场景下仍面临性能瓶颈。为此,我们进一步提出平衡型BCE(Bal-BCE),其具有坚实的理论基础。具体而言,我们推导出Sigmoid函数的无偏扩展形式,并引入额外的logit边际补偿机制以实现更优的优化。所提出的Bal-BCE显著加速了ViTs在少数类上的收敛,仅需数个训练周期即可实现稳定性能。大量实验表明,结合MGP与Bal-BCE后,LiVT能够在不依赖任何额外数据的前提下,成功训练出高性能的ViTs,且显著超越现有最先进方法。例如,在iNaturalist 2018数据集上,我们的ViT-B模型在无任何复杂技巧(bells and whistles)的情况下,达到了81.0%的Top-1准确率。代码已开源,地址为:https://github.com/XuZhengzhuo/LiVT。