InternImage: 변형 가능 컨볼루션을 활용한 대규모 시각 기반 모델 탐색

최근 몇 년간 대규모 비전 트랜스포머(Vision Transformers, ViTs)의 놀라운 발전과 비교할 때, 컨볼루션 신경망(Convolutional Neural Networks, CNNs) 기반의 대규모 모델은 여전히 초기 단계에 머물러 있다. 본 연구는 새로운 대규모 CNN 기반의 기초 모델인 InternImage를 제안한다. 이 모델은 ViTs와 마찬가지로 파라미터 수와 훈련 데이터의 증가로부터 성능 향상을 얻을 수 있다. 최근의 CNN들은 큰 밀집 커널에 초점을 맞추는 반면, InternImage는 변형 가능 컨볼루션(Deformable Convolution)을 핵심 연산자로 채택함으로써, 탐지 및 세그멘테이션과 같은 하류 작업에 요구되는 넓은 유효 수용 영역을 확보하면서도 입력과 작업 정보에 따라 적응적인 공간 집계가 가능하다. 그 결과, 전통적인 CNN의 엄격한 유도 편향(Inductive Bias)을 완화하고, ViTs와 유사하게 방대한 데이터와 대규모 파라미터를 활용하여 더 강력하고 견고한 패턴을 학습할 수 있는 가능성을 열었다. 제안된 InternImage의 효과성은 ImageNet, COCO, ADE20K와 같은 도전적인 벤치마크에서 입증되었다. 특히 InternImage-H는 COCO test-dev에서 새로운 기록인 65.4 mAP와 ADE20K에서 62.9 mIoU를 달성하며, 현재의 최고 성능을 기록한 CNN 및 ViT 모델들을 모두 상회하였다. 코드는 https://github.com/OpenGVLab/InternImage 에서 공개될 예정이다.