11 天前
InternImage:基于可变形卷积探索大规模视觉基础模型
Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao

摘要
近年来,大规模视觉变换器(Vision Transformers, ViTs)取得了显著进展,而基于卷积神经网络(Convolutional Neural Networks, CNNs)的大规模模型仍处于初步发展阶段。本文提出了一种新的大规模CNN基础模型——InternImage,该模型能够像ViTs一样,通过增加参数量和训练数据获得性能提升。与近期聚焦于大密集卷积核的CNN不同,InternImage以可变形卷积(deformable convolution)为核心运算单元,使得模型不仅具备下游任务(如目标检测和图像分割)所需的较大有效感受野,还能够根据输入数据和任务信息自适应地进行空间特征聚合。由此,所提出的InternImage显著降低了传统CNN中严格的归纳偏置(inductive bias),从而在大规模参数和海量数据的条件下,具备学习更强、更鲁棒特征表示的能力,与ViTs相当。我们在ImageNet、COCO和ADE20K等多个具有挑战性的基准测试上验证了该模型的有效性。值得一提的是,InternImage-H在COCO test-dev上取得了65.4 mAP的新纪录,在ADE20K上达到62.9 mIoU,超越了当前领先的CNN与ViT模型。相关代码将开源,发布于 https://github.com/OpenGVLab/InternImage。