17 天前

Vision Xformers:面向图像分类的高效注意力机制

Pranav Jeevan, Amit Sethi
Vision Xformers:面向图像分类的高效注意力机制
摘要

尽管Transformer已成为自然语言处理领域的主流神经网络架构,但要在计算机视觉任务中与卷积神经网络(CNN)相媲美,其所需的训练数据量、GPU内存和计算量往往高出数个数量级。这是因为Transformer的注意力机制随输入序列长度呈二次方增长,而图像展开后的序列长度通常很长。此外,Transformer缺乏适用于图像数据的归纳偏置。为此,我们对视觉Transformer(ViT)架构进行了三项改进,以克服上述局限性。首先,我们通过引入线性注意力机制(即X-formers,包括Performer、Linformer和Nyströmformer)缓解了二次方计算瓶颈,由此构建出视觉X-formers(ViXs)。该方法使GPU内存需求最高降低了七倍。我们还将ViXs的性能与FNet及多层感知机混合器(MLP mixers)进行了对比,进一步降低了GPU内存消耗。其次,我们在ViX中用卷积层替代了原始的线性嵌入层,为图像数据引入了适当的归纳偏置,这一改进在不增加模型参数量的前提下,显著提升了分类准确率。第三,我们将ViT中可学习的一维位置嵌入替换为旋转位置嵌入(Rotary Position Embedding, RoPE),在保持模型规模不变的情况下,进一步提高了分类性能。我们认为,通过整合这些改进措施,可有效降低Transformer在数据和计算资源方面的门槛,推动其在资源受限环境中的广泛应用,从而真正实现Transformer技术的普惠化。