HyperAIHyperAI

Command Palette

Search for a command to run...

LeViT : un Vision Transformer habillé comme un ConvNet pour une inférence plus rapide

Ben Graham Alaaeldin El-Nouby Hugo Touvron Pierre Stock Armand Joulin Hervé Jégou Matthijs Douze

Résumé

Nous concevons une famille d'architectures de classification d'images qui optimisent le compromis entre précision et efficacité dans un régime à haute vitesse. Notre travail exploite des résultats récents sur les architectures basées sur l'attention, qui se distinguent particulièrement sur des matériels de traitement hautement parallèles. Nous revisitons des principes issus de la vaste littérature sur les réseaux de neurones convolutifs afin de les appliquer aux transformers, en particulier les cartes d'activation à résolution décroissante. Nous introduisons également une nouvelle notion d’« biais d’attention », une méthode innovante pour intégrer des informations de position dans les vision transformers. En conséquence, nous proposons LeVIT : un réseau neuronal hybride conçu pour une classification d’images à inférence rapide. Nous considérons diverses mesures d’efficacité sur différentes plateformes matériels, afin de refléter au mieux un large éventail de scénarios d’application. Nos expériences approfondies valident empiriquement nos choix techniques et montrent qu’ils sont adaptés à la plupart des architectures. Globalement, LeVIT surpasse significativement les convnets et les vision transformers existants en matière de compromis vitesse/précision. Par exemple, à 80 % de précision top-1 sur ImageNet, LeVIT est cinq fois plus rapide qu’EfficientNet sur CPU. Le code est mis à disposition à l’adresse suivante : https://github.com/facebookresearch/LeViT


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LeViT : un Vision Transformer habillé comme un ConvNet pour une inférence plus rapide | Articles | HyperAI