HyperAIHyperAI
vor 17 Tagen

Raumkanalbasierte Token-Distillation für Vision-MLPs

{Chang Xu, Yunhe Wang, Yehui Tang, Minjing Dong, Xinghao Chen, Yanxi Li}
Raumkanalbasierte Token-Distillation für Vision-MLPs
Abstract

In letzter Zeit haben neuronale Architekturen, die ausschließlich aus mehrschichtigen Perzeptronen (MLPs) bestehen, erhebliches Forschungsinteresse in der Computer Vision-Community hervorgerufen. Allerdings führt die ineffiziente Vermischung von räumlichen und kanalbasierten Informationen dazu, dass MLP-ähnliche Modellarchitekturen erhebliche Vortrainingsaufwendungen auf großen Datensätzen erfordern. In dieser Arbeit wird das Problem aus einer innovativen Perspektive des Wissensdistillation angegangen. Wir stellen eine neue Methode namens Spatial-channel Token Distillation (STD) vor, die die Informationsvermischung in beiden Dimensionen verbessert, indem sie für jede Dimension spezifische Distillationstokens einführt. Zudem wird eine gegenseitige Informationsregulierung eingeführt, um sicherzustellen, dass die Distillationstokens sich auf ihre jeweilige Dimension konzentrieren und den Leistungszuwachs maximieren. Umfangreiche Experimente auf ImageNet für mehrere MLP-ähnliche Architekturen zeigen, dass der vorgeschlagene Token-Distillation-Mechanismus die Genauigkeit effizient steigern kann. So erhöht die vorgeschlagene STD die Top-1-Accuracy des Mixer-S16 auf ImageNet von 73,8 % auf 75,7 %, ohne dass ein kostenintensives Vortrainings auf JFT-300M erforderlich ist. Bei Anwendung auf leistungsstärkere Architekturen wie CycleMLP-B1 und CycleMLP-B2 erzielt STD weiterhin Genauigkeitsgewinne von jeweils etwa 1,1 % und 0,5 %.