11일 전

InternImage: 변형 가능 컨볼루션을 활용한 대규모 시각 기반 모델 탐색

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
InternImage: 변형 가능 컨볼루션을 활용한 대규모 시각 기반 모델 탐색
초록

최근 몇 년간 대규모 비전 트랜스포머(Vision Transformers, ViTs)의 놀라운 발전과 비교할 때, 컨볼루션 신경망(Convolutional Neural Networks, CNNs) 기반의 대규모 모델은 여전히 초기 단계에 머물러 있다. 본 연구는 새로운 대규모 CNN 기반의 기초 모델인 InternImage를 제안한다. 이 모델은 ViTs와 마찬가지로 파라미터 수와 훈련 데이터의 증가로부터 성능 향상을 얻을 수 있다. 최근의 CNN들은 큰 밀집 커널에 초점을 맞추는 반면, InternImage는 변형 가능 컨볼루션(Deformable Convolution)을 핵심 연산자로 채택함으로써, 탐지 및 세그멘테이션과 같은 하류 작업에 요구되는 넓은 유효 수용 영역을 확보하면서도 입력과 작업 정보에 따라 적응적인 공간 집계가 가능하다. 그 결과, 전통적인 CNN의 엄격한 유도 편향(Inductive Bias)을 완화하고, ViTs와 유사하게 방대한 데이터와 대규모 파라미터를 활용하여 더 강력하고 견고한 패턴을 학습할 수 있는 가능성을 열었다. 제안된 InternImage의 효과성은 ImageNet, COCO, ADE20K와 같은 도전적인 벤치마크에서 입증되었다. 특히 InternImage-H는 COCO test-dev에서 새로운 기록인 65.4 mAP와 ADE20K에서 62.9 mIoU를 달성하며, 현재의 최고 성능을 기록한 CNN 및 ViT 모델들을 모두 상회하였다. 코드는 https://github.com/OpenGVLab/InternImage 에서 공개될 예정이다.

InternImage: 변형 가능 컨볼루션을 활용한 대규모 시각 기반 모델 탐색 | 최신 연구 논문 | HyperAI초신경