HyperAIHyperAI
il y a 2 mois

Reconnaissance d'images multi-étiquettes avec des réseaux de convolution graphique

Chen, Zhao-Min ; Wei, Xiu-Shen ; Wang, Peng ; Guo, Yanwen
Reconnaissance d'images multi-étiquettes avec des réseaux de convolution graphique
Résumé

La tâche de reconnaissance d'images multi-étiquettes consiste à prédire un ensemble d'étiquettes d'objets présentes dans une image. Comme les objets se trouvent généralement ensemble dans une image, il est souhaitable de modéliser les dépendances entre les étiquettes pour améliorer les performances de reconnaissance. Pour capturer et explorer ces dépendances importantes, nous proposons un modèle de classification multi-étiquettes basé sur le réseau de convolution graphique (Graph Convolutional Network, GCN). Ce modèle construit un graphe orienté sur les étiquettes d'objets, où chaque nœud (étiquette) est représenté par des plongements lexicaux (word embeddings) d'une étiquette, et le GCN est appris pour mapper ce graphe d'étiquettes en un ensemble de classifieurs d'objets inter-dépendants. Ces classifieurs sont appliqués aux descripteurs d'image extraits par une autre sous-réseau, permettant ainsi au réseau global d'être entraîné de manière end-to-end. De plus, nous proposons un nouveau schéma de réassignation des poids pour créer une matrice efficace de corrélation des étiquettes, guidant la propagation de l'information entre les nœuds du GCN. Les expérimentations menées sur deux jeux de données de reconnaissance d'images multi-étiquettes montrent que notre approche dépasse nettement les autres méthodes existantes à l'état de l'art. En outre, les analyses visuelles révèlent que les classifieurs appris par notre modèle maintiennent une topologie sémantique significative.