Label2Label : Un Cadre de Modélisation Linguistique pour l'Apprentissage Multi-Attributs

Les objets sont généralement associés à plusieurs attributs, et ces attributs présentent souvent des corrélations élevées. La modélisation des relations complexes entre les attributs constitue un défi majeur pour l'apprentissage multi-attribut. Cet article propose un cadre simple mais générique nommé Label2Label pour exploiter les corrélations d'attributs complexes. Label2Label est la première tentative de prédiction multi-attribut sous l'angle de la modélisation linguistique. Plus précisément, il traite chaque étiquette d'attribut comme un "mot" décrivant l'échantillon. Comme chaque échantillon est annoté par plusieurs étiquettes d'attributs, ces "mots" formeront naturellement une "phrase" non ordonnée mais significative, qui décrit l'information sémantique de l'échantillon correspondant. Inspiré par le succès remarquable des modèles linguistiques pré-entraînés en traitement du langage naturel (NLP), Label2Label introduit un modèle linguistique masqué conditionné par l'image, qui masque aléatoirement certains jetons "mot" de la "phrase" d'étiquette et vise à les récupérer en se basant sur la "phrase" masquée et le contexte transmis par les caractéristiques de l'image. Notre intuition est que les relations entre les attributs au niveau des instances sont bien saisies si le réseau neuronal peut inférer les attributs manquants en fonction du contexte et des indices d'attributs restants. Label2Label est conceptuellement simple et empiriquement puissant. Sans intégrer de connaissances a priori spécifiques à la tâche ni des architectures de réseau très spécialisées, notre approche obtient des résultats d'état de l'art sur trois tâches différentes d'apprentissage multi-attribut, comparativement aux méthodes hautement personnalisées spécifiques au domaine. Le code source est disponible à l'adresse suivante : https://github.com/Li-Wanhua/Label2Label.