HyperAIHyperAI
vor 2 Monaten

Jenseits aufmerksamer Tokens: Einbeziehung von Token-Bedeutung und -Vielfalt für effiziente Visionstransformer

Long, Sifan ; Zhao, Zhen ; Pi, Jimin ; Wang, Shengsheng ; Wang, Jingdong
Jenseits aufmerksamer Tokens: Einbeziehung von Token-Bedeutung und -Vielfalt für effiziente Visionstransformer
Abstract

Visions-Transformer haben in verschiedenen visuellen Aufgaben erhebliche Verbesserungen erzielt, jedoch verringern ihre quadratischen Interaktionen zwischen Tokens die rechnerische Effizienz erheblich. In letzter Zeit wurden viele Pruning-Methoden vorgeschlagen, um redundante Tokens zu entfernen und effiziente Visions-Transformer zu realisieren. Bestehende Studien konzentrieren sich jedoch hauptsächlich auf die Token-Bedeutung, um lokale aufmerksame Tokens zu bewahren, und ignorieren vollständig die globale Token-Vielfalt. In dieser Arbeit betonen wir die Bedeutung vielfältiger globaler Semantik und schlagen eine effiziente Methode zur Trennung und Zusammenführung von Tokens vor, die sowohl die Token-Bedeutung als auch die Vielfalt bei der Token-Pruning berücksichtigen kann. Basierend auf der Klassentoken-Aufmerksamkeit trennen wir aufmerksame und unaufmerksame Tokens. Neben der Erhaltung der diskriminativsten lokalen Tokens fügen wir ähnliche unaufmerksame Tokens zusammen und passen homogene aufmerksame Tokens an, um die Token-Vielfalt zu maximieren. Trotz ihrer Einfachheit erreicht unsere Methode ein vielversprechendes Verhältnis zwischen Modellkomplexität und Klassifikationsgenauigkeit. Bei DeiT-S reduziert unsere Methode die FLOPs um 35 % mit einem Genauigkeitsverlust von nur 0,2 %. Bemerkenswerterweise verbessert unsere Methode dank der Erhaltung der Token-Vielfalt sogar die Genauigkeit von DeiT-T um 0,1 % nach einer Reduktion der FLOPs um 40 %.

Jenseits aufmerksamer Tokens: Einbeziehung von Token-Bedeutung und -Vielfalt für effiziente Visionstransformer | Neueste Forschungsarbeiten | HyperAI