il y a 2 mois

Apprentissage à Étiquettes Multiples sans Exemples basé sur des Régions Discriminantes

Narayan, Sanath ; Gupta, Akshita ; Khan, Salman ; Khan, Fahad Shahbaz ; Shao, Ling ; Shah, Mubarak

Résumé

L'apprentissage à zéro tirage avec étiquettes multiples (Multi-label Zero-Shot Learning, ZSL) est une version plus réaliste de l'apprentissage à zero tirage standard avec une seule étiquette, car plusieurs objets peuvent coexister dans une image naturelle. Cependant, la présence de plusieurs objets complique le raisonnement et nécessite un traitement spécifique des régions pour préserver leurs indices contextuels. Nous observons que la meilleure méthode existante pour le multi-label ZSL adopte une approche partagée en utilisant un ensemble commun de cartes d'attention pour toutes les classes. Ces cartes partagées entraînent une attention diffusée, qui ne se concentre pas de manière discriminante sur les emplacements pertinents lorsque le nombre de classes est important. De plus, l'association des caractéristiques visuelles agrégées spatialement aux sémantiques des classes conduit à un chevauchement des caractéristiques inter-classes, ce qui entrave la classification. Dans cet article, nous proposons une approche alternative pour la classification à zéro tirage avec étiquettes multiples basée sur la préservation de la discriminabilité régionale. Notre approche maintient la résolution spatiale afin de préserver les caractéristiques au niveau régional et utilise un module d'attention bi-niveau (Bi-Level Attention Module, BiAM) pour enrichir les caractéristiques en intégrant à la fois les informations contextuelles régionales et scéniques. Les caractéristiques enrichies au niveau régional sont ensuite mappées aux sémantiques des classes, et seules leurs prédictions de classe sont agrégées spatialement pour obtenir des prédictions au niveau de l'image, ce qui permet de garder les caractéristiques multi-classes disjointes. Notre approche établit un nouveau niveau d'excellence sur deux benchmarks à grande échelle pour le multi-label ZSL : NUS-WIDE et Open Images. Sur NUS-WIDE, notre approche atteint un gain absolu de 6,9 % en mAP pour le ZSL par rapport aux meilleurs résultats publiés.