WaveMix-Lite : un réseau de neurones à faible consommation de ressources pour l'analyse d'images

Les progrès réalisés dans la capacité de généralisation des réseaux de neurones sur les tâches d’analyse d’images se sont accompagnés d’une augmentation croissante du nombre de paramètres et de couches, de la taille des jeux de données, ainsi que des coûts computationnels liés à l’entraînement et au test, ainsi que de la consommation de mémoire GPU. Nous introduisons une nouvelle architecture, WaveMix-Lite, capable de généraliser aussi efficacement que les transformateurs contemporains et les réseaux de neurones convolutifs (CNN), tout en nécessitant des ressources bien moindres. WaveMix-Lite utilise une transformation en ondelettes discrète 2D pour mélanger de manière efficace les informations spatiales provenant des pixels. Cette architecture semble être un cadre architectural polyvalent et évolutif, adaptable à diverses tâches visionnelles — telles que la classification d’images ou la segmentation sémantique — sans nécessiter de modifications architecturales majeures, contrairement aux transformateurs et aux CNN. Elle parvient à atteindre ou dépasser plusieurs seuils de précision tout en étant entraînée sur une seule carte GPU. Par exemple, elle obtient une précision de pointe sur cinq jeux de données EMNIST, surpasse à la fois les CNN et les transformateurs sur ImageNet-1K et Places-365, et atteint un mIoU de 77 % sur l’ensemble de validation de Cityscapes, tout en utilisant moins d’un cinquième du nombre de paramètres et seulement la moitié de la mémoire GPU requise par des CNN ou transformateurs comparables. Nos expériences montrent que, bien que les éléments convolutionnels des architectures neuronales exploitent la propriété d’invariance par translation des images, de nouveaux types de couches (par exemple, la transformation en ondelettes) peuvent exploiter d’autres propriétés des images, telles que l’invariance à l’échelle et les dimensions spatiales finies des objets.