GCNet : Les réseaux non-locaux rencontrent les réseaux de compression-excitation et au-delà

Le Réseau Non-Local (NLNet) présente une approche novatrice pour capturer des dépendances à longue portée, en agrégant un contexte global spécifique à chaque requête à chaque position de requête. Cependant, grâce à une analyse empirique rigoureuse, nous avons constaté que les contextes globaux modélisés par le réseau non-local sont presque identiques pour différentes positions de requête au sein d'une même image. Dans cet article, nous exploitons cette découverte pour créer un réseau simplifié basé sur une formulation indépendante de la requête, qui maintient la précision du NLNet tout en réduisant considérablement les calculs. Nous observons également que cette conception simplifiée partage une structure similaire avec le Réseau Squeeze-Excitation (SENet). Par conséquent, nous les unifions dans un cadre général en trois étapes pour la modélisation du contexte global. Au sein de ce cadre général, nous concevons une meilleure mise en œuvre, appelée bloc de contexte global (GC block), qui est légère et peut modéliser efficacement le contexte global. Cette propriété légère nous permet de l'appliquer à plusieurs couches d'un réseau principal pour construire un réseau de contexte global (GCNet), qui surpasse généralement tant le NLNet simplifié que le SENet sur les principaux benchmarks pour diverses tâches de reconnaissance. Le code et les configurations sont disponibles à l'adresse suivante : https://github.com/xvjiarui/GCNet.