HyperAIHyperAI

Command Palette

Search for a command to run...

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

Cet article présente un nouveau mécanisme d’attention basé sur des points clés pour la reconnaissance visuelle dans les images fixes. Les réseaux de neurones convolutifs profonds (CNN) ont connu un grand succès dans la reconnaissance d’images appartenant à des classes distinctes, mais leur capacité à discriminer des changements fins reste limitée. Pour remédier à cela, nous proposons un modèle CNN end-to-end qui apprend des caractéristiques significatives liées aux variations fines grâce à notre mécanisme d’attention novateur. Ce mécanisme capte les structures spatiales présentes dans les images en identifiant des régions sémantiques (SRs) et leur distribution spatiale, ce qui s’est avéré être la clé pour modéliser des changements subtils. Nous identifions automatiquement ces régions sémantiques en regroupant les points clés détectés dans une image donnée. La « pertinence » de ces régions pour la reconnaissance d’image est évaluée à l’aide de notre mécanisme d’attention innovant, qui se concentre sur les parties de l’image les plus pertinentes pour une tâche donnée. Ce cadre s’applique aussi bien aux tâches traditionnelles de reconnaissance d’images qu’aux tâches de reconnaissance fine, sans nécessiter de régions annotées manuellement (par exemple, des boîtes englobantes de parties du corps, d’objets, etc.) pour l’apprentissage ou la prédiction. En outre, le mécanisme d’attention piloté par les points clés peut être facilement intégré aux modèles CNN existants. Le cadre est évalué sur six jeux de données de référence diversifiés. Le modèle dépasse les approches de pointe avec une marge considérable sur les jeux de données Distracted Driver V1 (précision : +3,39 %), Distracted Driver V2 (précision : +6,58 %), Stanford-40 Actions (mAP : +2,15 %), People Playing Musical Instruments (mAP : +16,05 %), Food-101 (précision : +6,30 %) et Caltech-256 (précision : +2,59 %).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp