HyperAIHyperAI
il y a 2 mois

RTFormer : Conception efficace pour la segmentation sémantique en temps réel avec les Transformers

Jian Wang; Chenhui Gou; Qiman Wu; Haocheng Feng; Junyu Han; Errui Ding; Jingdong Wang
RTFormer : Conception efficace pour la segmentation sémantique en temps réel avec les Transformers
Résumé

Récemment, les réseaux basés sur les transformateurs ont montré des résultats impressionnants en segmentation sémantique. Cependant, pour la segmentation sémantique en temps réel, les approches purement basées sur les CNN (Convolutional Neural Networks) dominent encore ce domaine, en raison du mécanisme de calcul coûteux en temps des transformateurs. Nous proposons RTFormer, un transformateur à double résolution efficace pour la segmentation sémantique en temps réel, qui offre un meilleur compromis entre performance et efficacité que les modèles basés sur les CNN. Pour atteindre une haute efficacité d'inférence sur des dispositifs tels que les GPU (Graphics Processing Units), notre RTFormer utilise une attention compatible GPU avec une complexité linéaire et abandonne le mécanisme multi-têtes. De plus, nous avons constaté que l'attention croisée entre résolutions est plus efficace pour rassembler des informations contextuelles globales pour la branche haute résolution en diffusant les connaissances de haut niveau apprises par la branche basse résolution. Des expériences étendues sur des benchmarks principaux démontrent l'efficacité de notre RTFormer proposé, il atteint l'état de l'art sur Cityscapes, CamVid et COCOStuff, et montre des résultats prometteurs sur ADE20K. Le code est disponible sur PaddleSeg : https://github.com/PaddlePaddle/PaddleSeg.