Apprentissage des substituts d'attributs et agrégation spectrale des tokens dans les Transformers pour l'apprentissage peu supervisé

Cet article présente de nouveaux modèles de transformateurs hiérarchiquement en cascade, capables d’améliorer l’efficacité des données grâce à l’apprentissage par substituts d’attributs et au regroupement de jetons spectraux. Les transformateurs visuels sont récemment considérés comme une alternative prometteuse aux réseaux de neurones convolutifs pour la reconnaissance visuelle. Toutefois, en l’absence de données suffisantes, ils sont sujets au surajustement et affichent des performances inférieures. Pour améliorer l’efficacité des données, nous proposons des transformateurs hiérarchiquement en cascade qui exploitent les structures intrinsèques des images via un regroupement de jetons spectraux et optimisent les paramètres apprenables grâce à des substituts latents d’attributs. La structure intrinsèque de l’image est utilisée pour réduire l’ambiguïté entre le contenu principal et le bruit de fond, grâce au regroupement de jetons spectraux. De plus, le schéma d’apprentissage par substituts d’attributs est conçu pour tirer parti de l’information visuelle riche contenue dans les paires image-étiquette, au lieu de se contenter de concepts visuels simples attribués par les étiquettes. Nos transformateurs hiérarchiquement en cascade, appelés HCTransformers, sont construits sur un cadre d’apprentissage auto-supervisé DINO et évalués sur plusieurs benchmarks populaires d’apprentissage peu supervisé.Dans un cadre inductif, les HCTransformers surpassent largement la base DINO de 9,7 % en précision 5-voies 1-exemple et de 9,17 % en précision 5-voies 5-exemples sur miniImageNet, ce qui démontre leur efficacité pour extraire des caractéristiques discriminantes. En outre, les HCTransformers montrent des avantages clairs par rapport aux méthodes de classification peu supervisée les plus avancées (SOTA) dans les configurations 5-voies 1-exemple et 5-voies 5-exemples sur quatre benchmarks populaires, à savoir miniImageNet, tieredImageNet, FC100 et CIFAR-FS. Les poids entraînés ainsi que le code source sont disponibles à l’adresse suivante : https://github.com/StomachCold/HCTransformers.