HyperAIHyperAI

Command Palette

Search for a command to run...

HyperTransformer : Génération de modèles pour l'apprentissage peu répété supervisé et semi-supervisé

Andrey Zhmoginov Mark Sandler Max Vladymyrov

Résumé

Dans ce travail, nous proposons un HyperTransformer, un modèle basé sur les Transformers pour l’apprentissage peu fréquent supervisé et semi-supervisé, capable de générer directement les poids d’un réseau de neurones convolutif (CNN) à partir d’échantillons de support. En raison de la capacité élevée du modèle Transformer, qui encode la dépendance d’un petit modèle CNN spécifique à une tâche donnée, nous décomposons efficacement la complexité de l’espace des tâches vastes de la complexité propre à chaque tâche individuelle. Notre méthode s’avère particulièrement efficace pour des architectures cibles de CNN de petite taille, où l’apprentissage d’un embedding universel fixe et indépendant de la tâche n’est pas optimale, et où de meilleures performances sont obtenues lorsque l’information relative à la tâche peut moduler tous les paramètres du modèle. Pour des modèles plus grands, nous constatons qu’il suffit de générer uniquement la dernière couche pour obtenir des résultats compétitifs ou supérieurs à ceux des méthodes de pointe, tout en maintenant une différentiabilité end-to-end.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp