Classification d’images à plusieurs étiquettes basée sur des réseaux de convolution graphique adaptatifs (ML-AGCN)
Dans cet article, une nouvelle approche basée sur les graphes pour la classification d’images à plusieurs étiquettes, nommée Réseau de convolution de graphe adaptatif à plusieurs étiquettes (ML-AGCN), est introduite. Les méthodes basées sur les graphes ont démontré un grand potentiel dans le domaine de la classification à plusieurs étiquettes. Toutefois, ces approches fixent de manière heuristique la topologie du graphe afin de modéliser les dépendances entre étiquettes, ce qui peut ne pas être optimal. Pour pallier ce problème, nous proposons d’apprendre la topologie de manière end-to-end. Plus précisément, nous intégrons un mécanisme basé sur l’attention pour estimer l’importance mutuelle entre paires de nœuds du graphe, ainsi qu’un mécanisme basé sur la similarité afin de préserver la similarité des caractéristiques entre différents nœuds. Cette approche offre ainsi une méthode plus flexible pour modéliser de manière adaptative le graphe. Des résultats expérimentaux sont présentés sur deux jeux de données largement connus, à savoir MS-COCO et VG-500. Les résultats montrent que ML-AGCN surpasser les méthodes de pointe tout en réduisant le nombre de paramètres du modèle.