HyperAIHyperAI

Command Palette

Search for a command to run...

Attention entre modalités avec intégration de graphes sémantiques pour la classification multi-label

Renchun You Zhiyao Guo Lei Cui Xiang Long Yingze Bao Shilei Wen

Résumé

La classification multi-étiquettes d’images et de vidéos constitue une tâche fondamentale mais complexe en vision par ordinateur. Les principaux défis résident dans la capture des dépendances spatiales ou temporelles entre les étiquettes, ainsi que dans la découverte des localisations des caractéristiques discriminantes pour chaque classe. Pour surmonter ces difficultés, nous proposons d’utiliser une attention inter-modale combinée à une intégration de graphes sémantiques pour la classification multi-étiquettes. À partir du graphe d’étiquettes construit, nous introduisons une méthode d’embedding de graphe basée sur la similarité d’adjacence afin d’apprendre des représentations sémantiques des étiquettes, exploitant explicitement les relations entre celles-ci. Par la suite, nos nouveaux mécanismes d’attention inter-modale sont générés sous la guidance des représentations d’étiquettes apprises. Des expériences menées sur deux jeux de données de classification multi-étiquettes d’images (MS-COCO et NUS-WIDE) montrent que notre méthode surpasser les états de l’art existants. En outre, nous validons notre approche sur un grand jeu de données de classification multi-étiquettes de vidéos (YouTube-8M Segments), et les résultats d’évaluation démontrent sa capacité de généralisation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp