11 天前

InternImage:基于可变形卷积探索大规模视觉基础模型

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
InternImage:基于可变形卷积探索大规模视觉基础模型
摘要

近年来,大规模视觉变换器(Vision Transformers, ViTs)取得了显著进展,而基于卷积神经网络(Convolutional Neural Networks, CNNs)的大规模模型仍处于初步发展阶段。本文提出了一种新的大规模CNN基础模型——InternImage,该模型能够像ViTs一样,通过增加参数量和训练数据获得性能提升。与近期聚焦于大密集卷积核的CNN不同,InternImage以可变形卷积(deformable convolution)为核心运算单元,使得模型不仅具备下游任务(如目标检测和图像分割)所需的较大有效感受野,还能够根据输入数据和任务信息自适应地进行空间特征聚合。由此,所提出的InternImage显著降低了传统CNN中严格的归纳偏置(inductive bias),从而在大规模参数和海量数据的条件下,具备学习更强、更鲁棒特征表示的能力,与ViTs相当。我们在ImageNet、COCO和ADE20K等多个具有挑战性的基准测试上验证了该模型的有效性。值得一提的是,InternImage-H在COCO test-dev上取得了65.4 mAP的新纪录,在ADE20K上达到62.9 mIoU,超越了当前领先的CNN与ViT模型。相关代码将开源,发布于 https://github.com/OpenGVLab/InternImage。

InternImage:基于可变形卷积探索大规模视觉基础模型 | 最新论文 | HyperAI超神经