Convolution dynamique sensible aux régions

Nous proposons une nouvelle convolution appelée Convolution Dynamique Région-Consciente (DRConv), qui peut attribuer automatiquement plusieurs filtres à des régions spatiales correspondantes où les caractéristiques présentent une représentation similaire. Grâce à cette approche, la DRConv surpasse la convolution standard dans la modélisation des variations sémantiques. Une couche de convolution standard peut augmenter le nombre de filtres afin d’extraire davantage d’éléments visuels, mais cela entraîne un coût computationnel élevé. De manière plus élégante, notre DRConv transfère l’augmentation du nombre de filtres par canal vers la dimension spatiale grâce à un instructeur apprenable, ce qui améliore non seulement la capacité de représentation de la convolution, tout en maintenant un coût computationnel raisonnable et l’invariance translationnelle propre à la convolution standard. La DRConv est une méthode efficace et élégante pour traiter des distributions d’informations spatiales complexes et variables. Elle peut remplacer la convolution standard dans tout réseau existant grâce à sa propriété plug-and-play, en particulier pour renforcer les couches de convolution dans les réseaux efficaces. Nous évaluons la DRConv sur une large gamme de modèles (séries MobileNet, ShuffleNetV2, etc.) et de tâches (classification, reconnaissance faciale, détection et segmentation). Sur la classification ImageNet, le ShuffleNetV2-0.5x basé sur DRConv atteint une performance de pointe de 67,1 % à un niveau de 46 M d’opérations multiplicatives-ajoutées, soit une amélioration relative de 6,3 %.