8 天前

FastViT：一种基于结构重参数化的快速混合视觉Transformer

Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan

摘要

近年来，将Transformer与卷积神经网络设计相结合的架构取得了持续的精度与效率提升。在本工作中，我们提出FastViT——一种新型混合视觉Transformer架构，能够在延迟与精度之间实现当前最优的权衡。为此，我们引入了一种新颖的令牌混合操作算子RepMixer，作为FastViT的核心构建模块。该算子通过结构重参数化（structural reparameterization）技术，移除了网络中的跳跃连接（skip-connections），从而显著降低了内存访问开销。此外，我们采用训练阶段的过参数化（train-time overparametrization）以及大核卷积（large kernel convolutions）策略以进一步提升模型精度，并通过实验证明这些设计对推理延迟的影响微乎其微。实验结果表明：在相同ImageNet精度下，我们的模型在移动设备上的推理速度分别比近期先进的混合Transformer架构CMT快3.5倍，比EfficientNet快4.9倍，比ConvNeXt快1.9倍；在相近延迟水平下，其在ImageNet上的Top-1准确率比MobileOne高出4.2%。我们的模型在多个任务上均显著优于现有架构，包括图像分类、目标检测、语义分割以及3D网格回归任务，在移动设备和桌面GPU上均展现出显著的延迟优势。此外，该模型对分布外样本（out-of-distribution samples）和数据扰动（corruptions）表现出极强的鲁棒性，优于现有各类鲁棒性模型。相关代码与预训练模型已开源，详见：https://github.com/apple/ml-fastvit。