HyperAIHyperAI
il y a 2 mois

Réseau de convolution graphique dynamique piloté par l'attention pour la reconnaissance d'images multi-étiquettes

Jin Ye; Junjun He; Xiaojiang Peng; Wenhao Wu; Yu Qiao
Réseau de convolution graphique dynamique piloté par l'attention pour la reconnaissance d'images multi-étiquettes
Résumé

Des études récentes exploitent souvent les Réseaux de Convolution sur Graphes (Graph Convolutional Networks, GCNs) pour modéliser les dépendances entre les labels afin d'améliorer la précision de reconnaissance pour la reconnaissance d'images à plusieurs labels. Cependant, construire un graphe en comptant les possibilités de co-occurrence des labels dans les données d'entraînement peut diminuer la généralisabilité du modèle, en particulier lorsque des objets co-occurrents occasionnels apparaissent dans les images de test. Notre objectif est d'éliminer ce biais et d'accroître la robustesse des caractéristiques apprises. Pour ce faire, nous proposons un Réseau de Convolution sur Graphes Dynamique Guidé par l'Attention (Attention-Driven Dynamic Graph Convolutional Network, ADD-GCN) capable de générer dynamiquement un graphe spécifique pour chaque image. L'ADD-GCN utilise un Réseau de Convolution sur Graphes Dynamique (Dynamic Graph Convolutional Network, D-GCN) pour modéliser la relation entre les représentations catégorielles sensibles au contenu générées par un Module d'Attention Sémantique (Semantic Attention Module, SAM). De nombreuses expériences menées sur des benchmarks publics à plusieurs labels montrent l'efficacité de notre méthode, qui atteint des mAPs de 85,2 %, 96,0 % et 95,5 % sur MS-COCO, VOC2007 et VOC2012 respectivement, surpassant nettement les méthodes actuelles de pointe. Tous les codes sont disponibles à l'adresse suivante : https://github.com/Yejin0111/ADD-GCN.

Réseau de convolution graphique dynamique piloté par l'attention pour la reconnaissance d'images multi-étiquettes | Articles de recherche récents | HyperAI