HyperAIHyperAI

Command Palette

Search for a command to run...

Distillation de représentation fondée sur la théorie de l'information

Roy Miles Adrian Lopez Rodriguez Krystian Mikolajczyk

Résumé

Malgré le succès empirique de la distillation de connaissances, les méthodes actuelles les plus performantes sont coûteuses en termes de calcul pendant l'entraînement, ce qui les rend difficiles à adopter en pratique. Pour remédier à ce problème, nous introduisons deux pertes distinctes et complémentaires, inspirées par un estimateur peu coûteux de l'entropie. Ces pertes visent à maximiser la corrélation et l'information mutuelle entre les représentations du modèle étudiant et du modèle enseignant. Notre méthode entraîne des surcoûts computationnels nettement réduits par rapport aux approches existantes, tout en atteignant des performances compétitives par rapport à l'état de l'art sur les tâches de distillation de connaissances et de transfert intermodèles. Nous démontrons également l'efficacité de notre méthode sur une tâche de distillation binaire, où elle établit un nouveau record d'état de l'art pour la quantification binaire et approche les performances d'un modèle à précision pleine. Code : www.github.com/roymiles/ITRD


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Distillation de représentation fondée sur la théorie de l'information | Articles | HyperAI