Classification d'images par superpixels avec des réseaux de neurones à attention graphique

Ce document présente une méthodologie pour la classification d'images utilisant des modèles de réseaux neuronaux graphiques (Graph Neural Networks, GNN). Nous transformons les images d'entrée en graphes d'adjacence de régions (region adjacency graphs, RAGs), dans lesquels les régions sont des superpixels et les arêtes relient les superpixels voisins. Nos expériences suggèrent que les réseaux de neurones à attention graphique (Graph Attention Networks, GATs), qui combinent des convolutions graphiques avec des mécanismes d'auto-attention, surpassent les autres modèles de GNN. Bien que les classifieurs d'images brutes performaient mieux que les GATs en raison de la perte d'information lors de la génération des RAGs, notre méthodologie ouvre une voie intéressante de recherche sur l'apprentissage profond au-delà des images structurées en grille rectangulaire, comme les panoramas à champ de vision à 360 degrés. Les noyaux de convolution traditionnels des méthodes actuelles ne peuvent pas traiter ces panoramas, tandis que les algorithmes adaptés aux superpixels et les graphes d'adjacence de régions résultants peuvent alimenter naturellement un GNN, sans problèmes topologiques.