
摘要
轻量级视觉Transformer(ViT)是否能在小数据集和低分辨率图像上达到甚至超越卷积神经网络(CNN)如ResNet的性能?本报告表明,通过预训练策略,采用掩码自编码器(masked auto-encoder)技术并辅以极小的图像缩放,纯ViT模型确实能够实现卓越性能。我们在CIFAR-10和CIFAR-100数据集上的实验中,使用了参数量少于365万、乘加操作(MAC)次数低于0.27G的ViT模型,符合“轻量级”模型的定义。与以往方法不同,本方法在不显著放大CIFAR-10和CIFAR-100原始图像尺寸的前提下,达到了同类轻量级Transformer架构中的最先进性能水平。这一成果充分体现了该模型在处理小规模数据集方面的高效性,同时也证明其在接近原始分辨率图像上的有效处理能力。