Une seule convolution de graphe suffit : classification efficace d’images en niveaux de gris

Les classificateurs d’images destinés à des tâches spécifiques au domaine, telles que la reconnaissance automatique de cibles par radar à ouverture synthétique (SAR ATR) ou la classification des radiographies thoraciques, reposent souvent sur des réseaux de neurones convolutifs (CNN). Bien que puissants, ces réseaux souffrent d’un décalage élevé (latence) en raison du grand nombre d’opérations qu’ils effectuent, ce qui constitue un obstacle majeur dans les applications en temps réel. De nombreux modèles de classification d’images sont conçus pour fonctionner aussi bien sur des jeux de données RGB que sur des images en niveaux de gris, mais les classificateurs ne traitant que des images en niveaux de gris restent moins courants. Pourtant, la classification d’images en niveaux de gris présente des applications critiques dans des domaines tels que l’imagerie médicale et la SAR ATR. À cet égard, nous proposons une nouvelle approche de classification d’images en niveaux de gris basée sur une représentation vectorielle des images. En exploitant la légèreté des perceptrons multicouches (MLP), nous traitons les images comme des vecteurs, simplifiant ainsi le problème à la classification d’images en niveaux de gris. Notre méthode intègre une seule couche de convolution de graphe traitée par lots, améliorant ainsi la précision et réduisant la variance des performances. Par ailleurs, nous avons conçu un accélérateur personnalisé sur FPGA pour notre modèle, intégrant plusieurs optimisations visant à améliorer les performances. Les résultats expérimentaux sur des jeux de données standard d’images en niveaux de gris démontrent l’efficacité de notre approche, qui atteint une latence significativement réduite (jusqu’à 16 fois moindre sur MSTAR) et des performances compétitives ou supérieures à celles des modèles de pointe pour la SAR ATR et la classification d’images médicales.