2 个月前

DiffRate:用于高效视觉Transformer的可微压缩率

Chen, Mengzhao ; Shao, Wenqi ; Xu, Peng ; Lin, Mingbao ; Zhang, Kaipeng ; Chao, Fei ; Ji, Rongrong ; Qiao, Yu ; Luo, Ping
DiffRate:用于高效视觉Transformer的可微压缩率
摘要

令牌压缩旨在通过剪枝(删除)或合并令牌来加速大规模视觉变压器(如 ViTs)。这是一个重要但具有挑战性的任务。尽管最近的先进方法取得了巨大成功,但它们需要仔细手工设计一个压缩率(即要移除的令牌数量),这既繁琐又可能导致次优性能。为了解决这一问题,我们提出了一种新的令牌压缩方法——可微压缩率(Differentiable Compression Rate, DiffRate),该方法具有若干先前技术所不具备的优点。首先,DiffRate 能够将损失函数的梯度传播到压缩率上,而在以往的工作中,压缩率被视为不可微的超参数。这样一来,不同的层可以自动学习各自的层内压缩率,而无需额外开销。其次,DiffRate 可以自然地同时执行令牌剪枝和合并操作,而之前的研究所采用的方法则是将这两者分开处理。第三,广泛的实验表明,DiffRate 达到了最先进的性能。例如,在应用学到的层内压缩率到现成的 ViT-H (MAE) 模型时,我们实现了 40% 的浮点运算量减少和 1.5 倍的吞吐量提升,在未进行微调的情况下仅在 ImageNet 上出现了 0.16% 的轻微精度下降,甚至超过了之前经过微调的方法。代码和模型可在 https://github.com/OpenGVLab/DiffRate 获取。

DiffRate:用于高效视觉Transformer的可微压缩率 | 最新论文 | HyperAI超神经