17 天前

在小规模数据集上使用极小缩放图像对轻量级视觉Transformer进行预训练

Jen Hong Tan

摘要

轻量级视觉Transformer（ViT）是否能在小数据集和低分辨率图像上达到甚至超越卷积神经网络（CNN）如ResNet的性能？本报告表明，通过预训练策略，采用掩码自编码器（masked auto-encoder）技术并辅以极小的图像缩放，纯ViT模型确实能够实现卓越性能。我们在CIFAR-10和CIFAR-100数据集上的实验中，使用了参数量少于365万、乘加操作（MAC）次数低于0.27G的ViT模型，符合“轻量级”模型的定义。与以往方法不同，本方法在不显著放大CIFAR-10和CIFAR-100原始图像尺寸的前提下，达到了同类轻量级Transformer架构中的最先进性能水平。这一成果充分体现了该模型在处理小规模数据集方面的高效性，同时也证明其在接近原始分辨率图像上的有效处理能力。