HyperAIHyperAI
il y a 17 jours

EfficientViT : Attention linéaire multi-échelle pour la prédiction dense à haute résolution

Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
EfficientViT : Attention linéaire multi-échelle pour la prédiction dense à haute résolution
Résumé

La prédiction dense à haute résolution permet de nombreuses applications réalistes prometteuses, telles que la photographie computationnelle ou la conduite autonome. Toutefois, le coût computationnel élevé rend difficile le déploiement des modèles d’état de l’art de prédiction dense à haute résolution sur des dispositifs matériels. Ce travail présente EfficientViT, une nouvelle famille de modèles visuels à haute résolution reposant sur une attention linéaire multi-échelle novatrice. Contrairement aux modèles précédents qui s’appuient sur une attention softmax lourde, des convolutions à noyau large inefficaces au niveau matériel ou des structures topologiques complexes pour atteindre de bons résultats, notre attention linéaire multi-échelle permet d’obtenir un champ réceptif global et un apprentissage multi-échelle (deux caractéristiques souhaitables pour la prédiction dense à haute résolution) à l’aide uniquement d’opérations légères et efficaces au niveau matériel. En conséquence, EfficientViT atteint des gains de performance remarquables par rapport aux modèles d’état de l’art précédents, avec une accélération significative sur diverses plateformes matérielles, y compris les CPU mobiles, les GPU d’edge et les GPU cloud. Sans perte de performance sur Cityscapes, EfficientViT réduit la latence GPU respectivement de 13,9× et 6,2× par rapport à SegFormer et SegNeXt. Pour la super-résolution, EfficientViT offre jusqu’à 6,4× d’accélération par rapport à Restormer tout en offrant une amélioration de 0,11 dB en PSNR. Pour Segment Anything, EfficientViT atteint une throughput 48,9× plus élevée sur GPU A100, tout en obtenant une performance légèrement supérieure en segmentation d’instances en mode zero-shot sur COCO.