HyperAIHyperAI
il y a 7 jours

MogaNet : Réseau de regroupement à agrégation à portes multi-ordre

Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
MogaNet : Réseau de regroupement à agrégation à portes multi-ordre
Résumé

En contextualisant le noyau de manière aussi globale que possible, les réseaux de neurones convolutifs modernes (ConvNets) ont démontré un grand potentiel dans les tâches de vision par ordinateur. Toutefois, les progrès récents sur les interactions à plusieurs ordres basées sur la théorie des jeux au sein des réseaux neuronaux profonds (DNNs) mettent en évidence un goulot d’étranglement représentationnel des ConvNets modernes, où les interactions expressives ne sont pas efficacement encodées avec l’augmentation de la taille du noyau. Pour relever ce défi, nous proposons une nouvelle famille de ConvNets modernes, baptisée MogaNet, destinée à l’apprentissage discriminatif de représentations visuelles dans des modèles fondés exclusivement sur des ConvNets, offrant un compromis avantageux entre complexité et performance. MogaNet intègre de manière compacte des convolutions conceptuellement simples mais efficaces, ainsi qu’une agrégation à portes, permettant ainsi une collecte efficace et une contextualisation adaptative des caractéristiques discriminantes. MogaNet présente une grande scalabilité, une efficacité remarquable en termes de paramètres et des performances compétitives par rapport aux meilleurs modèles actuels, tant les Vision Transformers (ViTs) que les ConvNets, sur ImageNet et diverses benchmarks visionnelles descendantes, incluant la détection d’objets COCO, la segmentation sémantique ADE20K, l’estimation 2D et 3D de posture humaine, ainsi que la prédiction vidéo. Notamment, MogaNet atteint des précisions de 80,0 % et 87,8 % sur ImageNet-1K, avec respectivement 5,2 millions et 181 millions de paramètres, surpassant ParC-Net et ConvNeXt-L, tout en réduisant de 59 % les FLOPs et de 17 millions de paramètres. Le code source est disponible à l’adresse suivante : https://github.com/Westlake-AI/MogaNet.

MogaNet : Réseau de regroupement à agrégation à portes multi-ordre | Articles de recherche récents | HyperAI