il y a 17 jours

LeViT : un Vision Transformer habillé comme un ConvNet pour une inférence plus rapide

Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, Matthijs Douze

Résumé

Nous concevons une famille d'architectures de classification d'images qui optimisent le compromis entre précision et efficacité dans un régime à haute vitesse. Notre travail exploite des résultats récents sur les architectures basées sur l'attention, qui se distinguent particulièrement sur des matériels de traitement hautement parallèles. Nous revisitons des principes issus de la vaste littérature sur les réseaux de neurones convolutifs afin de les appliquer aux transformers, en particulier les cartes d'activation à résolution décroissante. Nous introduisons également une nouvelle notion d’« biais d’attention », une méthode innovante pour intégrer des informations de position dans les vision transformers. En conséquence, nous proposons LeVIT : un réseau neuronal hybride conçu pour une classification d’images à inférence rapide. Nous considérons diverses mesures d’efficacité sur différentes plateformes matériels, afin de refléter au mieux un large éventail de scénarios d’application. Nos expériences approfondies valident empiriquement nos choix techniques et montrent qu’ils sont adaptés à la plupart des architectures. Globalement, LeVIT surpasse significativement les convnets et les vision transformers existants en matière de compromis vitesse/précision. Par exemple, à 80 % de précision top-1 sur ImageNet, LeVIT est cinq fois plus rapide qu’EfficientNet sur CPU. Le code est mis à disposition à l’adresse suivante : https://github.com/facebookresearch/LeViT