SegFormer : conception simple et efficace pour la segmentation sémantique avec des Transformers

Nous présentons SegFormer, un cadre simple, efficace et puissant pour la segmentation sémantique qui unit les Transformers à des décodesurs légers basés sur des perceptrons multicouches (MLP). SegFormer présente deux caractéristiques remarquables : 1) SegFormer intègre un nouvel encodeur Transformer hiérarchique qui produit des caractéristiques multi-échelles. Il ne nécessite pas d'encodage de position, évitant ainsi l'interpolation des codes de position, une pratique qui peut entraîner une dégradation des performances lorsque la résolution d'évaluation diffère de celle d'entraînement. 2) SegFormer évite les décodesurs complexes. Le décodeur MLP proposé agrège des informations provenant de différentes couches, combinant ainsi l'attention locale et l'attention globale pour produire des représentations puissantes. Nous montrons que cette conception simple et légère est la clé d'une segmentation efficace basée sur les Transformers. Nous avons étendu notre approche pour obtenir une série de modèles allant de SegFormer-B0 à SegFormer-B5, atteignant des performances et une efficacité nettement supérieures à celles des méthodes précédentes. Par exemple, SegFormer-B4 atteint 50,3 % de mIoU sur ADE20K avec seulement 64 M paramètres, soit 5 fois moins volumineux et 2,2 % meilleur que la meilleure méthode antérieure. Notre meilleur modèle, SegFormer-B5, atteint 84,0 % de mIoU sur l'ensemble de validation Cityscapes et démontre une excellente robustesse en situation zero-shot sur Cityscapes-C. Le code sera publié à l'adresse : github.com/NVlabs/SegFormer.