vor 11 Tagen

InternImage: Untersuchung großskaliger visionbasierter Grundmodelle mit verformbaren Faltungen

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao

Details der Forschungsarbeit anzeigen

InternImage: Untersuchung großskaliger visionbasierter Grundmodelle mit verformbaren Faltungen

Abstract

Im Vergleich zum erheblichen Fortschritt großer Vision-Transformer (ViT)-Modelle in den letzten Jahren befinden sich große Modelle auf Basis von Faltungsneuronalen Netzen (CNNs) weiterhin in einem frühen Entwicklungsstadium. In dieser Arbeit stellen wir ein neues großskaliges CNN-basiertes Grundmodell vor, das als InternImage bezeichnet wird und wie ViTs von einer Erhöhung der Parameteranzahl und der Trainingsdaten profitieren kann. Im Gegensatz zu jüngeren CNNs, die sich auf große dichte Kerne konzentrieren, nimmt InternImage die deformierbare Faltung als zentralen Operator, wodurch das Modell nicht nur einen großen effektiven Empfangsfeldbereich für nachgeschaltete Aufgaben wie Objektdetektion und Segmentierung besitzt, sondern auch eine adaptive räumliche Aggregation ermöglicht, die an Eingabedaten und Aufgabeninformationen angepasst ist. Dadurch verringert das vorgeschlagene InternImage die starke induktive Bias traditioneller CNNs und macht es möglich, mit großskaligen Parametern und umfangreichen Daten stärkere und robusterer Muster zu lernen – ähnlich wie ViTs. Die Wirksamkeit unseres Modells wird an anspruchsvollen Benchmark-Datensätzen wie ImageNet, COCO und ADE20K nachgewiesen. Besonders hervorzuheben ist, dass InternImage-H einen neuen Rekord von 65,4 mAP auf dem COCO test-dev und 62,9 mIoU auf ADE20K erreichte und damit sowohl aktuelle führende CNNs als auch ViTs übertrifft. Der Quellcode wird unter https://github.com/OpenGVLab/InternImage veröffentlicht werden.