HyperAIHyperAI
il y a 11 jours

InternImage : Exploration de modèles fondamentaux vision à grande échelle avec des convolutions déformables

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
InternImage : Exploration de modèles fondamentaux vision à grande échelle avec des convolutions déformables
Résumé

Par rapport aux progrès remarquables des transformateurs de vision à grande échelle (ViTs) observés ces dernières années, les modèles à grande échelle fondés sur les réseaux de neurones convolutifs (CNNs) restent encore à un stade précoce. Ce travail présente un nouveau modèle fondamental à base de CNN à grande échelle, nommé InternImage, capable d’exploiter les avantages liés à l’augmentation du nombre de paramètres et à l’augmentation des données d’entraînement, tout comme les ViTs. Contrairement aux CNNs récents qui se concentrent sur des noyaux denses de grande taille, InternImage repose sur la convolution déformable comme opérateur central, permettant ainsi à notre modèle d’obtenir à la fois un champ réceptif effectif étendu, nécessaire aux tâches en aval telles que la détection et la segmentation, et une agrégation spatiale adaptative conditionnée par les informations d’entrée et de tâche. En conséquence, le modèle InternImage réduit fortement les biais inductifs stricts des CNNs traditionnels, rendant possible l’apprentissage de motifs plus puissants et plus robustes à partir de grandes quantités de données et de paramètres, à la manière des ViTs. L’efficacité de notre modèle est démontrée sur des benchmarks exigeants, notamment ImageNet, COCO et ADE20K. Il est à noter qu’InternImage-H a atteint un nouveau record de 65,4 mAP sur le test-dev de COCO et de 62,9 mIoU sur ADE20K, surpassant à la fois les CNNs et les ViTs actuellement les plus performants. Le code source sera publié à l’adresse suivante : https://github.com/OpenGVLab/InternImage.