
摘要
视觉变换器在近年来的多种计算机视觉任务中展现了显著的成功。然而,其高昂的计算成本仍然是实际部署中的一个重要障碍。特别是,变换器模型的复杂度与输入标记的数量呈二次关系。因此,提出了一些减少需要处理的输入标记数量的技术。本文介绍了一种新颖的方法——Learned Thresholds 标记合并与剪枝(LTMP),该方法结合了标记合并和标记剪枝的优势。LTMP 使用学习阈值掩码模块,动态确定哪些标记需要合并,哪些需要剪枝。我们通过在 ImageNet 分类任务上对视觉变换器进行广泛的实验来验证我们的方法。结果表明,LTMP 在各种压缩率下均达到了最先进的精度,同时仅需一个微调周期,比以往的方法快了一个数量级。代码可在 https://github.com/Mxbonn/ltmp 获取。