
摘要
随着视觉Transformer(ViT)模型的日益流行及其规模的持续扩大,如何提升其在计算资源受限的边缘设备上的部署效率,降低计算开销,已成为研究热点。二值化技术可通过将模型权重与激活值均转换为二进制(即+1或-1),利用高效的popcount操作显著压缩模型尺寸并减少计算成本。然而,在包含大量类别的数据集(如ImageNet-1k)上,直接将卷积神经网络(CNN)的二值化方法或现有二值化策略应用于ViT时,其性能下降幅度远大于在CNN上的表现。通过深入分析,我们发现,诸如DeiT这类原始的二值化ViT模型,缺失了CNN架构中诸多关键特性,而这些特性正是支撑二值化CNN具备更强表征能力的重要原因。为此,我们提出BinaryViT,受CNN架构启发,在纯ViT架构中引入一系列源自CNN的设计元素,以增强二值化ViT的表征能力,同时不引入任何卷积操作。具体包括:用平均池化层替代原有的token池化层;设计包含多个平均池化分支的模块;在每个主残差连接的加法操作前加入仿射变换;以及构建金字塔结构。在ImageNet-1k数据集上的实验结果表明,上述设计显著提升了二值化纯ViT模型的性能,使其能够与此前最先进的二值化CNN模型相媲美,验证了所提方法的有效性。