
摘要
近年来,图像Transformer模型取得了显著进展,其性能已大幅缩小与传统卷积神经网络(CNN)架构之间的差距。标准训练流程通常包括在大规模数据集(如ImageNet-21k)上进行预训练,随后在ImageNet-1k数据集上进行微调。微调完成后,研究者通常会评估模型在较小数据集(如CIFAR-10/100)上的迁移学习表现,但往往忽略了Tiny ImageNet这一基准数据集。本文对视觉Transformer在Tiny ImageNet上的性能进行了最新评估,涵盖Vision Transformer(ViT)、数据高效图像Transformer(DeiT)、图像Transformer中的类别注意力机制(CaiT)以及Swin Transformer等模型。实验结果表明,Swin Transformer在该数据集上取得了91.35%的验证准确率,超越了当前的最先进水平。相关代码已开源,可访问:https://github.com/ehuynh1106/TinyImageNet-Transformers。