2 个月前

IA-RED$^2$: 面向可解释性的视觉Transformer冗余减少方法

Pan, Bowen ; Panda, Rameswar ; Jiang, Yifan ; Wang, Zhangyang ; Feris, Rogerio ; Oliva, Aude
IA-RED$^2$: 面向可解释性的视觉Transformer冗余减少方法
摘要

基于自注意力机制的模型——Transformer,近年来已成为计算机视觉领域的主流骨干网络。尽管Transformer在多种视觉任务中取得了令人印象深刻的成功,但其仍然面临着计算量庞大和内存消耗严重的问题。为了解决这一局限性,本文提出了一种可解释性冗余减少框架(Interpretability-Aware REDundancy REDuction, IA-RED$^2$)。我们首先观察到大量冗余计算主要集中在不相关的输入补丁上,然后引入了一个可解释模块,以动态且平滑的方式丢弃这些冗余补丁。该新颖框架进一步扩展为分层结构,在不同阶段逐步去除不相关的标记,从而显著降低计算成本。我们在图像和视频任务上进行了广泛的实验,结果表明,我们的方法可以在仅牺牲不到0.7%的准确率的情况下,为DeiT和TimeSformer等最先进模型提供高达1.4倍的速度提升。更重要的是,与其他加速方法不同,我们的方法具有内在的可解释性,并提供了大量的可视化证据,使得视觉Transformer不仅更加轻量化,而且更接近人类可理解的架构。我们通过定性和定量的结果证明了在我们的框架中自然产生的可解释性优于原始视觉Transformer所学习的原始注意力机制以及现成的解释方法。项目页面:http://people.csail.mit.edu/bpan/ia-red/。

IA-RED$^2$: 面向可解释性的视觉Transformer冗余减少方法 | 最新论文 | HyperAI超神经