摘要

视觉变换器（ViTs）引发了计算机视觉领域最近最显著的突破。然而，其高效设计主要由计算复杂度这一间接指标（即FLOPs）指导，而该指标与吞吐量等直接指标之间存在明显差距。因此，我们提出以目标平台上的直接速度评估作为高效ViTs的设计原则。具体而言，我们引入了LITv2，这是一种简单且有效的ViT模型，在不同模型规模下均表现出色，并且速度更快。LITv2的核心是一种新颖的自注意力机制，我们称之为HiLo。HiLo的灵感来源于图像中的高频成分捕捉局部细节，而低频成分关注全局结构的认识，但多头自注意力层忽略了不同频率特征的重要性。因此，我们建议在注意力层中通过将头部分为两组来解耦高/低频模式：一组通过每个局部窗口内的自注意力编码高频成分；另一组则通过对每个窗口和输入特征图中每个查询位置的平均池化低频键值进行全局注意力编码低频成分。得益于对这两组高效的优化设计，我们通过在GPU和CPU上全面基准测试FLOPs、速度和内存消耗，证明了HiLo优于现有的注意力机制。例如，在CPU上，HiLo比空间降采样注意力快1.4倍，比局部窗口注意力快1.6倍。借助HiLo的优势，LITv2成为主流视觉任务（包括图像分类、密集检测和分割）的强大骨干网络。代码可在https://github.com/ziplab/LITv2 获取。

源 PDF 查看代码