Transformer guidé par la sémantique et la visualisation pour l'apprentissage class-incremental à faible exemple

L’apprentissage incrémental de classes à faible exemplaire (FSCIL) a récemment suscité un intérêt considérable dans divers domaines. Les méthodes FSCIL existantes dépendent fortement de la robustesse du modèle de représentation (backbone) pré-entraîné sur les classes de base. Ces dernières années, différentes variantes de Transformers ont connu des progrès significatifs dans l’apprentissage de représentations fonctionnelles à grande échelle. Toutefois, les avancées des Transformers dans les scénarios FSCIL n’ont pas encore atteint le potentiel promis dans d’autres domaines. Dans ce travail, nous proposons un Transformer guidé par la sémantique et la vision (SV-T) afin d’améliorer la capacité d’extraction de caractéristiques du backbone pré-entraîné sur les classes incrémentales. Plus précisément, nous utilisons d’abord les étiquettes visuelles (d’images) fournies par les classes de base pour superviser l’optimisation du Transformer. Ensuite, un encodeur textuel est introduit pour générer automatiquement les étiquettes sémantiques (textuelles) correspondantes pour chaque image issue des classes de base. Enfin, ces étiquettes sémantiques construites sont exploitées pour guider la mise à jour des hyperparamètres du Transformer. Le SV-T permet ainsi de tirer pleinement parti d’un plus grand volume d’informations de supervision provenant des classes de base, renforçant ainsi la robustesse de l’entraînement du backbone. Plus important encore, notre méthode SV-T est indépendante et peut être directement intégrée aux architectures FSCIL existantes afin d’obtenir des embeddings pour diverses classes incrémentales. Des expériences étendues sur trois benchmarks, deux architectures FSCIL et deux variantes de Transformers montrent que notre approche SV-T permet d’atteindre une amélioration significative par rapport aux méthodes état-de-l’art actuelles en FSCIL.