HyperAIHyperAI
il y a 2 mois

Amincissement de Patch pour des Transformers Visuels Efficaces

Tang, Yehui ; Han, Kai ; Wang, Yunhe ; Xu, Chang ; Guo, Jianyuan ; Xu, Chao ; Tao, Dacheng
Amincissement de Patch pour des Transformers Visuels Efficaces
Résumé

Ce travail étudie le problème d'efficacité des transformateurs visuels en identifiant et éliminant les calculs redondants dans les réseaux donnés. L'architecture de transformateur récente a démontré son efficacité pour obtenir d'excellents résultats sur une série de tâches de vision par ordinateur. Cependant, tout comme pour les réseaux neuronaux convolutifs, le coût computationnel élevé des transformateurs visuels reste un problème sévère. Étant donné que le mécanisme d'attention agrège différents patches couche par couche, nous proposons une nouvelle approche de réduction des patches qui élimine les patches inutiles selon un paradigme descendante. Nous identifions d'abord les patches efficaces dans la dernière couche, puis nous utilisons ces patches pour guider le processus de sélection des couches précédentes. Pour chaque couche, l'impact d'un patch sur la caractéristique finale de sortie est approximé, et les patches ayant moins d'impact seront supprimés. Les résultats expérimentaux sur des ensembles de données de référence montrent que la méthode proposée peut réduire considérablement les coûts computationnels des transformateurs visuels sans affecter leurs performances. Par exemple, plus de 45 % des FLOPs du modèle ViT-Ti peuvent être réduits avec une diminution de seulement 0,2 % de la précision top-1 sur l'ensemble de données ImageNet.

Amincissement de Patch pour des Transformers Visuels Efficaces | Articles de recherche récents | HyperAI