HyperAIHyperAI

Command Palette

Search for a command to run...

在小规模数据集上使用极小缩放图像对轻量级视觉Transformer进行预训练

Jen Hong Tan

摘要

轻量级视觉Transformer(ViT)是否能在小数据集和低分辨率图像上达到甚至超越卷积神经网络(CNN)如ResNet的性能?本报告表明,通过预训练策略,采用掩码自编码器(masked auto-encoder)技术并辅以极小的图像缩放,纯ViT模型确实能够实现卓越性能。我们在CIFAR-10和CIFAR-100数据集上的实验中,使用了参数量少于365万、乘加操作(MAC)次数低于0.27G的ViT模型,符合“轻量级”模型的定义。与以往方法不同,本方法在不显著放大CIFAR-10和CIFAR-100原始图像尺寸的前提下,达到了同类轻量级Transformer架构中的最先进性能水平。这一成果充分体现了该模型在处理小规模数据集方面的高效性,同时也证明其在接近原始分辨率图像上的有效处理能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供