8 个月前

摘要

视觉变换器（ViTs）将所有图像块作为标记，并在它们之间构建多头自注意力机制（MHSA）。然而，由于并非所有标记在MHSA中都具有注意性，因此对这些图像标记的完全利用会带来冗余计算。例如，包含语义上无意义或分散注意力的图像背景的标记不会对ViT的预测产生积极贡献。在这项工作中，我们提出在ViT模型的前馈过程中重新组织图像标记，该方法在训练过程中被集成到ViT中。对于每次前向推理，我们通过相应的类别标记注意力来指导识别MHSA和FFN（即前馈网络）模块之间的注意性图像标记。然后，我们通过保留注意性图像标记并融合非注意性标记来重新组织图像标记，以加速后续的MHSA和FFN计算。为此，我们的方法EViT从两个方面改进了ViTs。首先，在相同数量的输入图像标记下，我们的方法减少了MHSA和FFN的计算量，从而提高了推理效率。例如，在ImageNet分类任务中，DeiT-S的推理速度提高了50%，而其识别准确率仅下降了0.3%。其次，在保持相同的计算成本的前提下，我们的方法使ViTs能够处理更多的图像标记以提高识别准确率，这些图像标记来自更高分辨率的图像。一个例子是在与普通DeiT-S相同的计算成本下，我们将DeiT-S在ImageNet分类任务中的识别准确率提高了1%。同时，我们的方法没有增加ViTs的参数量。标准基准测试上的实验结果证明了我们方法的有效性。代码可在 https://github.com/youweiliang/evit 获取。

源 PDF 查看代码