BiSeNet V2 : réseau bilatéral avec agrégation guidée pour la segmentation sémantique en temps réel

Les détails de bas niveau et les sémantiques de haut niveau sont tous deux essentiels à la tâche de segmentation sémantique. Toutefois, pour accélérer l'inférence du modèle, les approches actuelles sacrifient presque systématiquement les détails de bas niveau, ce qui entraîne une baisse notable de précision. Nous proposons de traiter séparément les détails spatiaux et les sémantiques catégorielles afin d’atteindre à la fois une haute précision et une haute efficacité pour la segmentation sémantique en temps réel. À cette fin, nous introduisons une architecture efficace et performante offrant un bon compromis entre vitesse et précision, nommée Bilateral Segmentation Network (BiSeNet V2). Cette architecture repose sur deux branches principales : (i) une branche Détail, caractérisée par des canaux larges et des couches peu profondes, conçue pour capturer les détails de bas niveau et générer une représentation de caractéristiques à haute résolution ; (ii) une branche Sémantique, dotée de canaux étroits et de couches profondes, permettant d’obtenir un contexte sémantique de haut niveau. La branche sémantique est légère grâce à une réduction de la capacité de canal et à une stratégie de downsampling rapide. En outre, nous avons conçu une couche d’agrégation guidée afin de renforcer les interactions mutuelles entre les deux types de représentations et de les fusionner efficacement. Par ailleurs, une stratégie d’entraînement améliorée est proposée pour améliorer les performances de segmentation sans aucun coût supplémentaire à l’inférence. Des évaluations quantitatives et qualitatives étendues démontrent que l’architecture proposée se distingue favorablement par rapport à plusieurs approches de pointe en segmentation sémantique en temps réel. Plus précisément, pour une entrée de taille 2 048×1 024, nous atteignons un Mean IoU de 72,6 % sur le jeu de test Cityscapes, avec une vitesse de 156 FPS sur une seule carte NVIDIA GeForce GTX 1080 Ti, ce qui est significativement plus rapide que les méthodes existantes, tout en offrant une précision de segmentation supérieure.