WaveMix : Un réseau neuronal efficace en ressources pour l'analyse d'images

Nous proposons une nouvelle architecture neuronale pour la vision par ordinateur -- WaveMix -- qui est à la fois efficace en termes de ressources et généralisable et évolutique. Bien qu'utilisant moins de paramètres entraînables, de mémoire RAM GPU et de calculs, les réseaux WaveMix atteignent des performances comparables ou supérieures à celles des réseaux neuronaux convolutionnels, des transformateurs visuels et des mélangeurs de tokens les plus avancés pour plusieurs tâches. Cette efficacité peut se traduire par des économies de temps, de coûts et d'énergie. Pour obtenir ces gains, nous avons utilisé une transformation en ondelettes discrètes bidimensionnelle (2D-DWT) multiniveau dans les blocs WaveMix, qui présente les avantages suivants : (1) Elle réorganise l'information spatiale en fonction de trois puissants a priori d'image -- invariance d'échelle, invariance aux décalages et parcimonie des contours -- (2) de manière sans perte et sans ajout de paramètres, (3) tout en réduisant également les dimensions spatiales des cartes de caractéristiques, ce qui diminue la mémoire et le temps nécessaires pour les passes avant et arrière, et (4) elle élargit le champ récepteur plus rapidement que les convolutions. L'architecture complète est une pile de blocs WaveMix auto-similaires et préservant la résolution, ce qui offre une flexibilité architecturale pour diverses tâches et différents niveaux de disponibilité des ressources. WaveMix établit de nouveaux références pour le segmentage sur Cityscapes ; et pour la classification sur Galaxy 10 DECals, Places-365, cinq jeux de données EMNIST et iNAT-mini, tout en offrant des performances compétitives sur d'autres références. Notre code source ainsi que nos modèles entraînés sont disponibles publiquement.