HyperTransformer : Génération de modèles pour l'apprentissage peu répété supervisé et semi-supervisé

Dans ce travail, nous proposons un HyperTransformer, un modèle basé sur les Transformers pour l’apprentissage peu fréquent supervisé et semi-supervisé, capable de générer directement les poids d’un réseau de neurones convolutif (CNN) à partir d’échantillons de support. En raison de la capacité élevée du modèle Transformer, qui encode la dépendance d’un petit modèle CNN spécifique à une tâche donnée, nous décomposons efficacement la complexité de l’espace des tâches vastes de la complexité propre à chaque tâche individuelle. Notre méthode s’avère particulièrement efficace pour des architectures cibles de CNN de petite taille, où l’apprentissage d’un embedding universel fixe et indépendant de la tâche n’est pas optimale, et où de meilleures performances sont obtenues lorsque l’information relative à la tâche peut moduler tous les paramètres du modèle. Pour des modèles plus grands, nous constatons qu’il suffit de générer uniquement la dernière couche pour obtenir des résultats compétitifs ou supérieurs à ceux des méthodes de pointe, tout en maintenant une différentiabilité end-to-end.