Command Palette
Search for a command to run...
Réseau de représentation sémantique multicouche pour la classification d'images à plusieurs étiquettes
Réseau de représentation sémantique multicouche pour la classification d'images à plusieurs étiquettes
Xiwen Qu Hao Che Jun Huang Linchuan Xu Xiao Zheng
Résumé
La classification d’images à plusieurs étiquettes (MLIC) est une tâche fondamentale et pratique, visant à attribuer plusieurs étiquettes possibles à une image. Ces dernières années, de nombreuses approches basées sur les réseaux neuronaux convolutifs profonds (CNN) ont été proposées afin de modéliser les corrélations entre étiquettes, afin de découvrir les significations sémantiques des étiquettes et d’apprendre des représentations sémantiques d’images. Ce papier poursuit cette direction de recherche en améliorant à la fois la modélisation des corrélations entre étiquettes et l’apprentissage des représentations sémantiques. D’un côté, outre les significations locales de chaque étiquette, nous proposons d’explorer davantage les significations globales partagées par plusieurs étiquettes. De l’autre côté, les approches existantes se concentrent principalement sur l’apprentissage des représentations sémantiques à la dernière couche convolutive d’un CNN. Or, il a été observé que les représentations d’images issues de différentes couches d’un CNN captent des niveaux ou échelles de caractéristiques différents, ainsi que des capacités discriminantes variées. Nous proposons donc d’apprendre des représentations sémantiques à plusieurs couches convolutives. À cette fin, ce travail conçoit un réseau de représentation sémantique multicouche (MSRN), qui découvre à la fois les significations locales et globales des étiquettes en modélisant leurs corrélations, et utilise ces significations sémantiques pour guider l’apprentissage des représentations sémantiques à plusieurs couches via un mécanisme d’attention. Des expérimentations étendues sur quatre jeux de données de référence — VOC 2007, COCO, NUS-WIDE et Apparel — montrent que le MSRN proposé atteint des performances compétitives par rapport aux modèles de pointe.