HyperAIHyperAI
il y a 17 jours

Distillation de représentation fondée sur la théorie de l'information

Roy Miles, Adrian Lopez Rodriguez, Krystian Mikolajczyk
Distillation de représentation fondée sur la théorie de l'information
Résumé

Malgré le succès empirique de la distillation de connaissances, les méthodes actuelles les plus performantes sont coûteuses en termes de calcul pendant l'entraînement, ce qui les rend difficiles à adopter en pratique. Pour remédier à ce problème, nous introduisons deux pertes distinctes et complémentaires, inspirées par un estimateur peu coûteux de l'entropie. Ces pertes visent à maximiser la corrélation et l'information mutuelle entre les représentations du modèle étudiant et du modèle enseignant. Notre méthode entraîne des surcoûts computationnels nettement réduits par rapport aux approches existantes, tout en atteignant des performances compétitives par rapport à l'état de l'art sur les tâches de distillation de connaissances et de transfert intermodèles. Nous démontrons également l'efficacité de notre méthode sur une tâche de distillation binaire, où elle établit un nouveau record d'état de l'art pour la quantification binaire et approche les performances d'un modèle à précision pleine. Code : www.github.com/roymiles/ITRD

Distillation de représentation fondée sur la théorie de l'information | Articles de recherche récents | HyperAI