17 天前

扩展视觉Transformer

Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer
扩展视觉Transformer
摘要

基于注意力机制的神经网络,如视觉Transformer(Vision Transformer, ViT),近期在众多计算机视觉基准测试中取得了最先进水平的性能。规模是实现优异结果的关键因素,因此深入理解模型的扩展特性,对于有效设计下一代模型至关重要。尽管Transformer语言模型的扩展规律已有研究,但视觉Transformer的扩展特性尚不明确。为此,我们系统地对ViT模型及其训练数据进行了大规模的上下扩展,全面刻画了误差率、数据量与计算资源之间的关系。在此过程中,我们对ViT的架构和训练方法进行了优化,显著降低了内存消耗,并提升了模型的准确率。最终,我们成功训练出一个参数量达二十亿的ViT模型,在ImageNet数据集上实现了90.45%的Top-1准确率,创下新的纪录。此外,该模型在少样本迁移学习任务中也表现出色,例如在每类仅提供10个样本的情况下,仍能达到84.86%的Top-1准确率。