2 个月前

在视觉变压器中追求稀疏性：端到端的探索

Chen, Tianlong ; Cheng, Yu ; Gan, Zhe ; Yuan, Lu ; Zhang, Lei ; Wang, Zhangyang

摘要

视觉变换器（ViTs）最近受到了爆炸性的关注，但其庞大的模型规模和高昂的训练成本仍然令人望而却步。传统的训练后剪枝方法往往会导致更高的训练预算。相比之下，本文旨在减少训练过程中的内存开销和推理复杂度，同时不牺牲可达到的精度。我们首次进行了全面探索，采取了一种从端到端集成稀疏性的统一方法来处理ViTs。具体而言，我们不是训练完整的ViTs，而是动态提取并训练稀疏子网络，同时保持固定的较小参数预算。我们的方法在训练过程中联合优化模型参数并探索连接性，最终输出一个稀疏网络作为最终结果。该方法从非结构化稀疏性无缝扩展到结构化稀疏性，后者通过考虑引导ViTs内部自注意力头的剪枝和生长来实现。我们进一步共同探索数据和架构的稀疏性以获得额外的效率提升，通过引入一种新颖的学习型令牌选择器来自适应地确定当前最重要的补丁。在ImageNet上使用多种ViT骨干网络进行的广泛实验验证了我们提议的有效性，这些提议显著降低了计算成本且几乎不影响泛化能力。或许最令人惊讶的是，我们发现所提出的稀疏（共）训练有时可以提高ViT的精度而不是降低它，使得稀疏性成为一个诱人的“免费午餐”。例如，在数据和架构分别为5%和50%的稀疏度下，我们的稀疏化DeiT-Small模型提高了0.28%的Top-1精度，并且同时享受了49.32%的浮点运算量（FLOPs）和4.40%的运行时间节省。我们的代码可在 https://github.com/VITA-Group/SViTE 获取。