Réseau de pooling d'ordre deux basé sur l'attention pour la classification d'images hyperspectrales
L'apprentissage profond (DL) a fait preuve d’un potentiel considérable pour la classification des images hyperspectrales (HSI), grâce à ses capacités puissantes de modélisation non linéaire et à son optimisation end-to-end. Bien que les performances supérieures des méthodes basées sur le DL aient été largement démontrées, certaines limitations persistent. D’un côté, les cadres actuels de DL s’appuient généralement sur des caractéristiques statistiques du premier ordre, tandis qu’ils prennent rarement en compte des caractéristiques statistiques du second ordre ou d’ordre supérieur. De l’autre côté, l’optimisation des hyperparamètres complexes (par exemple, le nombre de couches ou la taille des noyaux de convolution) est à la fois chronophage et extrêmement difficile, rendant ainsi le cadre DL conçu peu explicite. Pour surmonter ces défis, nous proposons un nouveau réseau basé sur l’attention et reposant sur un pooling du second ordre, appelé A-SPN (Attention-based Second-order Pooling Network). Premièrement, un opérateur de caractéristiques du premier ordre est conçu pour modéliser l’information spectrale et spatiale des images HSI. Deuxièmement, un opérateur de pooling du second ordre basé sur l’attention (A-SOP) est introduit pour capturer des caractéristiques discriminantes et représentatives. Enfin, une couche entièrement connectée avec une fonction de perte softmax est utilisée pour la classification. Le cadre proposé permet d’obtenir des caractéristiques statistiques du second ordre de manière end-to-end. De plus, A-SPN est exempt de réglage complexe des hyperparamètres, ce qui le rend plus explicite et facilement adaptable aux tâches de classification. Les résultats expérimentaux obtenus sur trois jeux de données hyperspectrales courants montrent que A-SPN surpasser d’autres méthodes classiques et de pointe basées sur le DL en matière de performance de généralisation, de précision de classification, de vitesse de convergence et de complexité computationnelle, notamment dans des conditions de données d’entraînement limitées.