HyperAIHyperAI
il y a 17 jours

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images

Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera
Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images
Résumé

Cet article présente un nouveau mécanisme d’attention basé sur des points clés pour la reconnaissance visuelle dans les images fixes. Les réseaux de neurones convolutifs profonds (CNN) ont connu un grand succès dans la reconnaissance d’images appartenant à des classes distinctes, mais leur capacité à discriminer des changements fins reste limitée. Pour remédier à cela, nous proposons un modèle CNN end-to-end qui apprend des caractéristiques significatives liées aux variations fines grâce à notre mécanisme d’attention novateur. Ce mécanisme capte les structures spatiales présentes dans les images en identifiant des régions sémantiques (SRs) et leur distribution spatiale, ce qui s’est avéré être la clé pour modéliser des changements subtils. Nous identifions automatiquement ces régions sémantiques en regroupant les points clés détectés dans une image donnée. La « pertinence » de ces régions pour la reconnaissance d’image est évaluée à l’aide de notre mécanisme d’attention innovant, qui se concentre sur les parties de l’image les plus pertinentes pour une tâche donnée. Ce cadre s’applique aussi bien aux tâches traditionnelles de reconnaissance d’images qu’aux tâches de reconnaissance fine, sans nécessiter de régions annotées manuellement (par exemple, des boîtes englobantes de parties du corps, d’objets, etc.) pour l’apprentissage ou la prédiction. En outre, le mécanisme d’attention piloté par les points clés peut être facilement intégré aux modèles CNN existants. Le cadre est évalué sur six jeux de données de référence diversifiés. Le modèle dépasse les approches de pointe avec une marge considérable sur les jeux de données Distracted Driver V1 (précision : +3,39 %), Distracted Driver V2 (précision : +6,58 %), Stanford-40 Actions (mAP : +2,15 %), People Playing Musical Instruments (mAP : +16,05 %), Food-101 (précision : +6,30 %) et Caltech-256 (précision : +2,59 %).

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images | Articles de recherche récents | HyperAI