Repenser les convolutions séparables par profondeur : comment les corrélations intra-noyau conduisent à des améliorations des MobileNets

Nous introduisons les convolutions séparables par plan (BSConv) comme des blocs fonctionnels hautement efficaces pour les réseaux de neurones convolutifs (CNN). Ces dernières sont motivées par une analyse quantitative des propriétés des noyaux issues de modèles entraînés, qui mettent en évidence la prédominance des corrélations le long de l’axe de profondeur. À partir de ces observations, nous établissons une fondation théorique permettant de dériver des implémentations efficaces utilisant uniquement des couches standards. De plus, notre approche fournit une dérivation, une interprétation et une justification théoriques complètes pour l’application des convolutions séparables par profondeur (DSCs), qui constituent désormais la base de nombreuses architectures modernes. En fin de compte, nous révélerons que les architectures basées sur les DSCs, telles que MobileNets, reposent implicitement sur des corrélations entre noyaux, tandis que notre formulation BSConv repose sur des corrélations intra-noyaux, permettant ainsi une séparation plus efficace des convolutions régulières. Des expériences étendues sur des jeux de données à grande échelle et à granularité fine montrent que les BSConv améliorent de manière claire et cohérente MobileNets et d'autres architectures basées sur les DSCs, sans ajouter de complexité supplémentaire. Pour les jeux de données à granularité fine, nous obtenons une amélioration allant jusqu’à 13,7 points de pourcentage. En outre, lorsqu’elles sont utilisées comme remplacement direct dans des architectures standards telles que ResNets, les variantes BSConv surpassent également leurs homologues classiques jusqu’à 9,5 points de pourcentage sur ImageNet. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/zeiss-microscopy/BSConv.