MUXConv : Multiplexage d'information dans les réseaux de neurones convolutionnels

Les réseaux de neurones convolutifs ont connu des progrès remarquables en efficacité computationnelle ces dernières années. Un moteur clé de cette évolution réside dans l'idée d'équilibrer l'expressivité du modèle et son efficacité en remplaçant les couches convolutives standards par une combinaison de convolutions $1\times 1$ et de convolutions séparables en profondeur. Toutefois, ce gain d'efficacité s'accompagne d'un flux d'information sous-optimisé à la fois dans l'espace et entre les canaux au sein du réseau. Pour surmonter cette limitation, nous proposons MUXConv, une couche conçue pour renforcer le flux d'information en multiplexant progressivement les informations spatiales et canalaires tout en maîtrisant la complexité computationnelle. En outre, afin de démontrer l'efficacité de MUXConv, nous l'intégrons dans un algorithme évolutionnaire multi-objectifs efficace pour rechercher les hyperparamètres optimaux du modèle tout en optimisant simultanément la précision, la compacité et l'efficacité computationnelle. Sur ImageNet, les modèles résultants, baptisés MUXNets, atteignent des performances équivalentes (75,3 % de précision top-1) et un nombre d’opérations de multiplication-ajout (218M) à ceux de MobileNetV3, tout en étant 1,6 fois plus compacts, et surpassent tous les autres modèles mobiles sur les trois critères. MUXNet se distingue également en apprentissage par transfert et lorsqu’il est adapté à la détection d’objets. Sur le benchmark ChestX-Ray 14, son taux de précision est comparable aux meilleures méthodes actuelles, tout en étant 3,3 fois plus compact et 14 fois plus efficace. De même, sur PASCAL VOC 2007, la détection est 1,2 % plus précise, 28 % plus rapide et 6 % plus compacte que MobileNetV2. Le code est disponible à l’adresse https://github.com/human-analysis/MUXConv