il y a 2 mois

Distillation de jetons spatiaux-canaux pour les MLP visuels

{Chang Xu, Yunhe Wang, Yehui Tang, Minjing Dong, Xinghao Chen, Yanxi Li}

Résumé

Récemment, les architectures neuronales fondées exclusivement sur des perceptrons multicouches (MLP) ont suscité un vif intérêt au sein de la communauté du traitement d’image. Toutefois, le mélange inefficace des informations spatiales et canalaires entrave les modèles visuels basés sur MLP, qui nécessitent des pré-entraînements coûteux sur de grandes bases de données. Ce travail aborde ce problème sous un nouvel angle, celui de la distillation de connaissances. Nous proposons une méthode novatrice de distillation de tokens spatiaux et canalaires (Spatial-channel Token Distillation, STD), qui améliore le mélange d’information dans les deux dimensions en introduisant des tokens de distillation pour chacune d’elles. Une régularisation par information mutuelle est par ailleurs intégrée afin de faire concentrer les tokens de distillation sur leurs dimensions spécifiques, maximisant ainsi le gain de performance. Des expériences étendues sur ImageNet menées sur plusieurs architectures basées sur MLP démontrent que le mécanisme de distillation de tokens proposé améliore efficacement la précision. Par exemple, la méthode STD permet d’augmenter la précision top-1 du modèle Mixer-S16 sur ImageNet de 73,8 % à 75,7 %, sans nécessiter de pré-entraînement coûteux sur JFT-300M. Lorsqu’elle est appliquée à des architectures plus puissantes, comme CycleMLP-B1 et CycleMLP-B2, STD permet d’obtenir respectivement des gains de précision d’environ 1,1 % et 0,5 %.