FastViT : Un Transformer hybride rapide pour la vision utilisant une reparamétrisation structurelle

L’intégration récente des architectures transformer et convolutionnelles a permis des progrès constants en termes de précision et d’efficacité des modèles. Dans ce travail, nous introduisons FastViT, une architecture hybride de vision transformer qui atteint l’état de l’art en matière de compromis latence-précision. Pour cela, nous proposons un nouvel opérateur de mélange de tokens, appelé RepMixer, composant fondamental de FastViT, qui utilise une réparamétrisation structurelle afin de réduire le coût d’accès à la mémoire en éliminant les connexions de type skip-connections dans le réseau. Nous appliquons également une sur-paramétrisation pendant l’entraînement ainsi que des convolutions à noyau large afin d’améliorer la précision, tout en démontrant empiriquement que ces choix ont un impact minimal sur la latence. Nous montrons que notre modèle est 3,5 fois plus rapide que CMT, une architecture hybride transformer récente d’état de l’art, 4,9 fois plus rapide que EfficientNet, et 1,9 fois plus rapide que ConvNeXt sur un appareil mobile, pour une précision équivalente sur le jeu de données ImageNet. À une latence similaire, notre modèle obtient une précision Top-1 sur ImageNet supérieure de 4,2 % à celle de MobileOne. Notre modèle surpasse de manière cohérente les architectures concurrentes sur plusieurs tâches — classification d’images, détection, segmentation et régression sur maillages 3D — avec une amélioration significative de la latence, tant sur un appareil mobile qu’une GPU de bureau. En outre, notre modèle se révèle particulièrement robuste face aux échantillons hors distribution et aux perturbations, surpassant les modèles concurrents en termes de robustesse. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/apple/ml-fastvit.