HyperAIHyperAI
il y a 11 jours

Attention entre modalités avec intégration de graphes sémantiques pour la classification multi-label

Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen
Attention entre modalités avec intégration de graphes sémantiques pour la classification multi-label
Résumé

La classification multi-étiquettes d’images et de vidéos constitue une tâche fondamentale mais complexe en vision par ordinateur. Les principaux défis résident dans la capture des dépendances spatiales ou temporelles entre les étiquettes, ainsi que dans la découverte des localisations des caractéristiques discriminantes pour chaque classe. Pour surmonter ces difficultés, nous proposons d’utiliser une attention inter-modale combinée à une intégration de graphes sémantiques pour la classification multi-étiquettes. À partir du graphe d’étiquettes construit, nous introduisons une méthode d’embedding de graphe basée sur la similarité d’adjacence afin d’apprendre des représentations sémantiques des étiquettes, exploitant explicitement les relations entre celles-ci. Par la suite, nos nouveaux mécanismes d’attention inter-modale sont générés sous la guidance des représentations d’étiquettes apprises. Des expériences menées sur deux jeux de données de classification multi-étiquettes d’images (MS-COCO et NUS-WIDE) montrent que notre méthode surpasser les états de l’art existants. En outre, nous validons notre approche sur un grand jeu de données de classification multi-étiquettes de vidéos (YouTube-8M Segments), et les résultats d’évaluation démontrent sa capacité de généralisation.

Attention entre modalités avec intégration de graphes sémantiques pour la classification multi-label | Articles de recherche récents | HyperAI