Apprentissage de la régularisation spatiale avec des supervisions au niveau de l'image pour la classification d'images multi-étiquettes

La classification d'images à étiquettes multiples est une tâche fondamentale mais complexe en vision par ordinateur. Des progrès considérables ont été réalisés ces dernières années grâce à l'exploitation des relations sémantiques entre les étiquettes. Cependant, les approches conventionnelles ne sont pas capables de modéliser les relations spatiales sous-jacentes entre les étiquettes dans les images à étiquettes multiples, car les annotations spatiales des étiquettes ne sont généralement pas fournies. Dans cet article, nous proposons un réseau neuronal profond unifié qui exploite à la fois les relations sémantiques et spatiales entre les étiquettes avec uniquement des annotations au niveau de l'image. Étant donné une image à étiquettes multiples, notre réseau de régularisation spatiale proposé (Spatial Regularization Network, SRN) génère des cartes d'attention pour toutes les étiquettes et capture les relations sous-jacentes entre elles par le biais de convolutions apprises. En agrégeant les résultats de classification régularisés avec les résultats originaux d'un réseau ResNet-101, la performance de classification peut être améliorée de manière constante. Le réseau neuronal profond complet est entraîné bout à bout avec uniquement des annotations au niveau de l'image, ce qui élimine tout effort supplémentaire sur les annotations d'images. Des évaluations approfondies sur 3 jeux de données publics avec différents types d'étiquettes montrent que notre approche surpasse significativement l'état de l'art et possède une forte capacité de généralisation. L'analyse du modèle SRN appris démontre qu'il peut effectivement capturer à la fois les relations sémantiques et spatiales des étiquettes pour améliorer la performance de classification.