HyperAIHyperAI
il y a 11 jours

Un cadre partagé à multi-attention pour l'apprentissage zéro-shot multi-étiquettes

{ Ehsan Elhamifar, Dat Huynh}
Un cadre partagé à multi-attention pour l'apprentissage zéro-shot multi-étiquettes
Résumé

Dans ce travail, nous développons un modèle partagé à multi-attention pour l’apprentissage zéro-shot multi-étiquettes. Nous affirmons qu’il s’agit d’une tâche non triviale de concevoir un mécanisme d’attention capable de reconnaître à la fois plusieurs étiquettes vues et non vues dans une image, car il n’existe aucun signal d’apprentissage permettant de localiser les étiquettes non vues, et qu’une image ne contient généralement qu’un petit nombre d’étiquettes présentes parmi des milliers d’étiquettes possibles. Par conséquent, au lieu de générer des attentes pour les étiquettes non vues, dont le comportement est inconnu et qui pourraient se concentrer sur des régions non pertinentes en l’absence de tout exemple d’apprentissage, nous permettons aux étiquettes non vues de sélectionner parmi un ensemble d’attentions partagées, entraînées pour être indépendantes des étiquettes et pour se concentrer uniquement sur des régions pertinentes/avant-plan grâce à notre nouvelle fonction de perte. Enfin, nous apprenons une fonction de compatibilité permettant de distinguer les étiquettes à partir de l’attention sélectionnée. Nous proposons également une nouvelle fonction de perte composée de trois composants, qui guide l’attention à se focaliser sur des régions d’image diverses et pertinentes tout en exploitant l’ensemble des caractéristiques d’attention. À travers des expériences étendues, nous démontrons que notre méthode améliore l’état de l’art de 2,9 % et 1,4 % en score F1 sur les jeux de données NUS-WIDE et Open Images à grande échelle, respectivement.

Un cadre partagé à multi-attention pour l'apprentissage zéro-shot multi-étiquettes | Articles de recherche récents | HyperAI