15 天前

面向2020年代的ConvNet

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie
面向2020年代的ConvNet
摘要

视觉识别领域的“20年代”始于视觉Transformer(Vision Transformers, ViTs)的提出,该模型迅速取代了传统卷积神经网络(ConvNets),成为图像分类任务的最先进方法。然而,原始的ViT在应用于目标检测、语义分割等通用计算机视觉任务时面临诸多挑战。正是层次化Transformer(如Swin Transformer)重新引入了卷积神经网络中的一些先验知识,使Transformer在实际应用中具备了作为通用视觉主干网络的可行性,并在多种视觉任务上展现出卓越性能。然而,这类混合方法的有效性在很大程度上仍归功于Transformer本身的内在优势,而非卷积操作所固有的归纳偏置。在本工作中,我们重新审视了模型设计空间,探索纯卷积网络(pure ConvNet)所能达到的极限。我们逐步将标准的ResNet“现代化”,向视觉Transformer的设计理念靠拢,并在此过程中发现若干关键组件,这些组件对性能差异起到了决定性作用。基于这一探索,我们提出了一类全新的纯卷积网络模型,命名为ConvNeXt。该系列模型完全由标准卷积模块构建而成,在准确率和可扩展性方面与Transformer模型相媲美:在ImageNet上达到87.8%的Top-1准确率,并在COCO目标检测和ADE20K语义分割任务上超越Swin Transformer,同时保持了标准卷积网络所特有的简洁性与高效性。