17 天前

用于视觉的卷积Xformers

Pranav Jeevan, Amit sethi
用于视觉的卷积Xformers
摘要

尽管视觉Transformer(Vision Transformers, ViTs)在某些基准测试中达到了顶尖的准确率,但在图像处理的实际应用中仍受限于其有限的实用性。其主要原因在于,相较于卷积神经网络(CNNs),ViTs需要更大的训练数据集以及更多的计算资源,这归因于其自注意力机制固有的二次时间复杂度。为此,我们提出了一种线性注意力-卷积混合架构——视觉卷积Transformer(Convolutional X-formers for Vision, CXV),以克服上述局限。在CXV中,我们用线性注意力机制(如Performer、Nyströmformer和Linear Transformer)替代原有的二次复杂度注意力机制,显著降低了对GPU资源的消耗。同时,通过引入卷积子层为图像数据提供归纳偏置(inductive prior),从而无需依赖ViTs中常用的类别标记(class token)和位置嵌入(positional embeddings)。此外,我们提出了一种新型训练策略:在训练的不同阶段采用两种不同的优化器,实验表明该方法可有效提升多种架构在图像分类任务中的Top-1准确率。在数据量有限且GPU资源受限(如计算核心数、内存容量、功耗)的场景下,CXV在图像分类任务中表现优于其他主流架构,包括各类标记混合模型(如ConvMixer、FNet和MLP Mixer)、Transformer模型(如ViT、CCT、CvT及混合型Xformers)以及ResNets,展现出卓越的性能与实用性。