Transformateurs Spatiaux Épars pour l'Apprentissage à Partir de Peu d'Exemples

L'apprentissage à partir de données limitées est un défi car la rareté des données entraîne une mauvaise généralisation du modèle formé. Une représentation globale classique par pooling risque de perdre des informations locales utiles. De nombreuses méthodes d'apprentissage par tirs limités ont récemment abordé ce défi en utilisant des descripteurs profonds et en apprenant une métrique au niveau des pixels. Cependant, l'utilisation de descripteurs profonds comme représentations de caractéristiques peut entraîner la perte d'informations contextuelles sur l'image. De plus, la plupart de ces méthodes traitent chaque classe du jeu d'appui indépendamment, ce qui ne permet pas d'utiliser suffisamment les informations discriminantes et les plongements spécifiques à la tâche.Dans cet article, nous proposons une nouvelle architecture de réseau neuronal basée sur les transformateurs appelée SSFormers (Sparse Spatial Transformers), qui identifie les caractéristiques pertinentes pour la tâche et supprime les caractéristiques non pertinentes. Plus précisément, nous divisons chaque image d'entrée en plusieurs patches d'images de tailles différentes afin d'obtenir des caractéristiques locales denses. Ces caractéristiques conservent les informations contextuelles tout en exprimant des informations locales. Ensuite, nous proposons une couche de transformateur spatial éparse pour trouver une correspondance spatiale entre l'image requête et l'ensemble complet d'appui, afin de sélectionner les patches d'images pertinents pour la tâche et de supprimer ceux qui ne le sont pas. Enfin, nous suggérons l'utilisation d'un module de correspondance entre patches d'images pour calculer la distance entre les représentations locales denses, déterminant ainsi à quelle catégorie appartient l'image requête dans le jeu d'appui.Des expériences approfondies sur des benchmarks populaires en apprentissage par tirs limités montrent la supériorité de notre méthode par rapport aux méthodes les plus avancées actuellement disponibles. Notre code source est disponible à l'adresse \url{https://github.com/chenhaoxing/ssformers}.