HyperAIHyperAI

Command Palette

Search for a command to run...

学习阈值的视觉 Transformer 令牌合并与剪枝

Maxim Bonnaerens Joni Dambre

摘要

视觉变换器在近年来的多种计算机视觉任务中展现了显著的成功。然而,其高昂的计算成本仍然是实际部署中的一个重要障碍。特别是,变换器模型的复杂度与输入标记的数量呈二次关系。因此,提出了一些减少需要处理的输入标记数量的技术。本文介绍了一种新颖的方法——Learned Thresholds 标记合并与剪枝(LTMP),该方法结合了标记合并和标记剪枝的优势。LTMP 使用学习阈值掩码模块,动态确定哪些标记需要合并,哪些需要剪枝。我们通过在 ImageNet 分类任务上对视觉变换器进行广泛的实验来验证我们的方法。结果表明,LTMP 在各种压缩率下均达到了最先进的精度,同时仅需一个微调周期,比以往的方法快了一个数量级。代码可在 https://github.com/Mxbonn/ltmp 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供