SERE : Exploration de la relation auto-élémentaire des caractéristiques pour les Transformers auto-supervisés

L’apprentissage de représentations par auto-entraînement pour les réseaux de convolution (CNN) s’est avéré efficace pour les tâches visuelles. En tant qu’alternative aux CNN, les vision transformers (ViT) possèdent une forte capacité de représentation grâce à leur attention spatiale auto-associative et à leurs réseaux feedforward au niveau des canaux. Des travaux récents ont montré que l’apprentissage auto-entraîné permet de libérer tout le potentiel des ViT. Toutefois, la plupart de ces travaux s’appuient sur des stratégies d’auto-entraînement initialement conçues pour les CNN, par exemple la discrimination au niveau des instances, tout en ignorant les spécificités propres aux ViT. Nous observons que la modélisation des relations sur les dimensions spatiale et canal constitue une caractéristique distincte des ViT par rapport aux autres architectures. Afin de renforcer cette propriété, nous proposons d’exploiter une relation auto-élémentaire des caractéristiques, appelée SERE (Feature SElf-RElation), pour entraîner des ViT en mode auto-entraîné. Plus précisément, au lieu de réaliser l’apprentissage auto-entraîné uniquement à partir des embeddings de caractéristiques issues de plusieurs vues, nous utilisons les relations auto-élémentaires des caractéristiques, à savoir les relations spatiales et canal auto-associatives, pour l’apprentissage auto-entraîné. Ce type d’apprentissage fondé sur les relations auto-élémentaires renforce davantage la capacité de modélisation des relations des ViT, conduisant à des représentations plus puissantes et à une amélioration stable des performances sur plusieurs tâches en aval. Le code source de notre travail est disponible publiquement à l’adresse suivante : https://github.com/MCG-NKU/SERE.