il y a 6 mois

Résumé

Cet article présente un nouveau mécanisme d’attention basé sur des points clés pour la reconnaissance visuelle dans les images fixes. Les réseaux de neurones convolutifs profonds (CNN) ont connu un grand succès dans la reconnaissance d’images appartenant à des classes distinctes, mais leur capacité à discriminer des changements fins reste limitée. Pour remédier à cela, nous proposons un modèle CNN end-to-end qui apprend des caractéristiques significatives liées aux variations fines grâce à notre mécanisme d’attention novateur. Ce mécanisme capte les structures spatiales présentes dans les images en identifiant des régions sémantiques (SRs) et leur distribution spatiale, ce qui s’est avéré être la clé pour modéliser des changements subtils. Nous identifions automatiquement ces régions sémantiques en regroupant les points clés détectés dans une image donnée. La « pertinence » de ces régions pour la reconnaissance d’image est évaluée à l’aide de notre mécanisme d’attention innovant, qui se concentre sur les parties de l’image les plus pertinentes pour une tâche donnée. Ce cadre s’applique aussi bien aux tâches traditionnelles de reconnaissance d’images qu’aux tâches de reconnaissance fine, sans nécessiter de régions annotées manuellement (par exemple, des boîtes englobantes de parties du corps, d’objets, etc.) pour l’apprentissage ou la prédiction. En outre, le mécanisme d’attention piloté par les points clés peut être facilement intégré aux modèles CNN existants. Le cadre est évalué sur six jeux de données de référence diversifiés. Le modèle dépasse les approches de pointe avec une marge considérable sur les jeux de données Distracted Driver V1 (précision : +3,39 %), Distracted Driver V2 (précision : +6,58 %), Stanford-40 Actions (mAP : +2,15 %), People Playing Musical Instruments (mAP : +16,05 %), Food-101 (précision : +6,30 %) et Caltech-256 (précision : +2,59 %).

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'images

Réseau De Neurones Convolutif

Compréhension D'images

Approche/Framework

Vision Par Ordinateur

Tâche

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'images

Réseau De Neurones Convolutif

Compréhension D'images

Approche/Framework

Vision Par Ordinateur

Tâche

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images | Articles | HyperAI

Command Palette

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Attend and Guide (AG-Net) : Un réseau profond à attention pilotée par des points clés pour la reconnaissance d'images

Asish Bera Zachary Wharton Yonghuai Liu Nik Bessis Ardhendu Behera

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters