Une couche de transformateur de représentation universelle pour la classification d’images à faible exemple

La classification à peu d'exemples vise à reconnaître des classes inconnues lorsqu'on ne dispose que d'un petit nombre d'exemples. Nous abordons le problème de la classification d'images à peu d'exemples multi-domaines, dans lequel les classes inconnues et leurs exemples proviennent de sources de données diverses. Ce problème suscite un intérêt croissant et a stimulé le développement de benchmarks tels que Meta-Dataset. Un défi majeur dans ce cadre multi-domaines consiste à intégrer efficacement les représentations fonctionnelles issues de l'ensemble varié des domaines d'entraînement. Dans ce travail, nous proposons une couche Universal Representation Transformer (URT), qui apprend méta-automatiquement à exploiter des caractéristiques universelles pour la classification à peu d'exemples en répésant dynamiquement et en combinant les représentations les plus adaptées, spécifiques à chaque domaine. Nos expérimentations montrent que URT établit un nouveau record sur Meta-Dataset, en particulier en atteignant les meilleurs résultats sur le plus grand nombre de sources de données par rapport aux méthodes concurrentes. Nous analysons différentes variantes d'URT et présentons une visualisation des cartes de chaleur des scores d'attention, qui éclairent le mécanisme de généralisation transverse aux domaines. Notre code est disponible à l'adresse suivante : https://github.com/liulu112601/URT.