
摘要
视觉变换器(Vision Transformer, ViT)已成为计算机视觉领域的重要骨干模型。为了提高ViT的效率,近期的研究通过剪枝或融合冗余标记来减少自注意力层的二次成本。然而,这些方法因信息损失而面临速度与精度之间的权衡问题。本文认为,标记融合需要考虑标记之间的多样关系以最小化信息损失。为此,我们提出了一种多标准标记融合(Multi-criteria Token Fusion, MCTF)方法,该方法基于多个标准(例如相似性、信息量和融合标记的大小)逐步融合标记。此外,我们采用了前向一步注意力机制(one-step-ahead attention),这是一种改进的方法,用于捕捉标记的信息量。通过使用标记减少一致性训练配备MCTF的模型,我们在图像分类任务(ImageNet1K)中实现了最佳的速度与精度权衡。实验结果表明,无论是否进行训练,MCTF均能持续超越之前的减少方法。具体而言,DeiT-T和DeiT-S在引入MCTF后减少了约44%的浮点运算次数(FLOPs),同时分别提高了0.5%和0.3%的性能。我们还展示了MCTF在多种视觉变换器(如T2T-ViT、LV-ViT)中的适用性,在不降低性能的情况下至少实现了31%的速度提升。代码可在https://github.com/mlvlab/MCTF 获取。