2 个月前

SPViT:通过软令牌剪枝加速视觉变换器

Kong, Zhenglun ; Dong, Peiyan ; Ma, Xiaolong ; Meng, Xin ; Sun, Mengshu ; Niu, Wei ; Shen, Xuan ; Yuan, Geng ; Ren, Bin ; Qin, Minghai ; Tang, Hao ; Wang, Yanzhi
SPViT:通过软令牌剪枝加速视觉变换器
摘要

近期,视觉变换器(Vision Transformer, ViT)在计算机视觉领域不断树立新的里程碑,然而其高昂的计算和内存成本使其在工业生产中的推广面临困难。剪枝作为一种传统的模型压缩方法,旨在提高硬件效率,已在各种深度神经网络(DNN)结构中得到广泛应用。然而,如何对ViT结构进行专门的剪枝仍不清楚。考虑到三个关键点:结构特征、ViT内部的数据模式以及相关的边缘设备部署,我们利用输入标记的稀疏性,提出了一种计算感知的软剪枝框架。该框架可以应用于扁平化和卷积神经网络(CNN)类型的纯变换器结构,例如基于池化的ViT(Pooling-based ViT, PiT)。具体而言,我们设计了一个动态注意力多头标记选择器,这是一个轻量级模块,用于自适应地实例化标记选择。此外,我们引入了一种软剪枝技术,该技术将选择器模块生成的信息较少的标记整合到一个包标记中,使其参与后续计算而不是完全丢弃。我们的框架通过所提出的计算感知训练策略,在特定边缘设备的精度与计算约束之间找到了平衡。实验结果表明,我们的框架显著降低了ViT的计算成本,同时在图像分类任务上保持了相当的性能。此外,我们的框架可以确保识别出的模型满足移动设备和现场可编程门阵列(FPGA)的资源规格要求,并且能够在移动平台上实现DeiT-T的实时执行。例如,在移动设备上,我们的方法将DeiT-T的延迟降低至26毫秒(比现有工作提高了26%~41%),同时在ImageNet数据集上的Top-1准确率提高了0.25%~4%。

SPViT:通过软令牌剪枝加速视觉变换器 | 最新论文 | HyperAI超神经