Réexaminer BiSeNet pour la segmentation sémantique en temps réel

Le BiSeNet a été prouvé être un réseau à deux flux populaire pour la segmentation en temps réel. Cependant, son principe d'ajouter un chemin supplémentaire pour encoder les informations spatiales est chronophage, et les troncs communs empruntés à des tâches pré-entraînées, par exemple, la classification d'images, peuvent être inefficaces pour la segmentation d'images en raison du manque de conception spécifique à la tâche. Pour résoudre ces problèmes, nous proposons une nouvelle structure efficace nommée réseau de concaténation dense à court terme (STDC network) en éliminant la redondance structurale. Plus précisément, nous réduisons progressivement la dimension des cartes de caractéristiques et utilisons leur agrégation pour représenter l'image, ce qui constitue le module de base du réseau STDC. Dans le décodeur, nous proposons un module d'agrégation de détails en intégrant l'apprentissage des informations spatiales dans les couches de bas niveau selon une approche mono-flux. Enfin, les caractéristiques de bas niveau et les caractéristiques profondes sont fusionnées pour prédire les résultats finaux de segmentation. De nombreuses expériences sur les jeux de données Cityscapes et CamVid démontrent l'efficacité de notre méthode en atteignant un compromis prometteur entre la précision de la segmentation et la vitesse d'inférence. Sur Cityscapes, nous obtenons un mIoU de 71,9 % sur l'ensemble de test avec une vitesse de 250,4 FPS sur une carte NVIDIA GTX 1080Ti, ce qui est 45,2 % plus rapide que les méthodes les plus récentes, et nous atteignons un mIoU de 76,8 % avec 97,0 FPS lors de l'inférence sur des images à plus haute résolution.