DiffRate : Taux de compression différentiable pour des Transformers visuels efficaces

La compression de jetons vise à accélérer les grands modèles de transformateurs visuels (par exemple, ViTs) en élaguant (supprimant) ou fusionnant des jetons. Il s'agit d'une tâche importante mais difficile. Bien que les approches avancées récentes aient obtenu d'excellents résultats, elles nécessitent un réglage minutieux du taux de compression (c'est-à-dire le nombre de jetons à supprimer), ce qui est laborieux et conduit à des performances sous-optimales. Pour résoudre ce problème, nous proposons Differentiable Compression Rate (DiffRate), une nouvelle méthode de compression de jetons dotée de plusieurs propriétés attractives que les travaux antérieurs ne possèdent pas. Premièrement, DiffRate permet la propagation du gradient de la fonction de perte jusqu'au taux de compression, considéré comme un hyperparamètre non différentiable dans les travaux précédents. Dans ce cas, différentes couches peuvent apprendre automatiquement des taux de compression différents couche par couche sans surcoût supplémentaire. Deuxièmement, l'élagage et la fusion des jetons peuvent être effectués simultanément de manière naturelle dans DiffRate, alors qu'ils étaient isolés dans les travaux précédents. Troisièmement, des expériences approfondies démontrent que DiffRate atteint des performances d'état de l'art. Par exemple, en appliquant les taux de compression appris couche par couche à un modèle ViT-H (MAE) standard, nous obtenons une réduction de 40% des FLOPs et une amélioration du débit de 1,5 fois, avec une légère baisse de précision de 0,16% sur ImageNet sans fine-tuning, surpassant même les méthodes précédentes avec fine-tuning. Les codes et modèles sont disponibles à l'adresse suivante : https://github.com/OpenGVLab/DiffRate.