Intégration d'encodage d'étiquettes pour la classification basée sur les attributs

Les attributs constituent une représentation intermédiaire qui permet le partage de paramètres entre les classes, une nécessité lorsque les données d’entraînement sont limitées. Nous proposons de considérer la classification d’images basée sur les attributs comme un problème d’embedding de labels : chaque classe est plongée dans l’espace des vecteurs d’attributs. Nous introduisons une fonction qui mesure la compatibilité entre une image et un embedding de label. Les paramètres de cette fonction sont appris sur un ensemble d’apprentissage constitué d’exemples étiquetés, afin de garantir qu’étant donné une image, les classes correctes obtiennent un score supérieur à celui des classes incorrectes. Les résultats obtenus sur les jeux de données Animals With Attributes et Caltech-UCSD-Birds montrent que le cadre proposé dépasse le modèle de référence classique de prédiction directe des attributs dans un scénario d’apprentissage zéro-shot. Le cadre d’embedding de labels présente d’autres avantages, notamment la possibilité d’intégrer des sources d’information complémentaires aux attributs (par exemple, des hiérarchies de classes) ou de passer progressivement de l’apprentissage zéro-shot à l’apprentissage avec de grandes quantités de données.