PIDNet : Un réseau de segmentation sémantique en temps réel inspiré par les régulateurs PID

L’architecture de réseau à deux branches a démontré son efficacité et son efficience dans les tâches de segmentation sémantique en temps réel. Toutefois, la fusion directe des détails à haute résolution et du contexte à basse fréquence présente un inconvénient : les caractéristiques détaillées sont facilement dominées par l’information contextuelle environnante. Ce phénomène de dépassement (overshoot) limite l’amélioration de la précision de segmentation des modèles à deux branches existants. Dans cet article, nous établissons un lien entre les réseaux de neurones à convolution (CNN) et les régulateurs proportionnels-intégraux-dérivés (PID), et révélons qu’un réseau à deux branches équivaut à un régulateur proportionnel-intégral (PI), qui souffre intrinsèquement de problèmes similaires de dépassement. Pour atténuer ce problème, nous proposons une nouvelle architecture de réseau à trois branches, nommée PIDNet, comprenant trois branches dédiées respectivement à l’extraction d’informations détaillées, contextuelles et de contours, et utilisant une attention aux contours pour guider la fusion entre les branches détaillées et contextuelles. Notre famille de modèles PIDNet atteint le meilleur compromis entre vitesse d’inférence et précision, surpassant tous les modèles existants ayant une vitesse d’inférence similaire sur les jeux de données Cityscapes et CamVid. Plus précisément, PIDNet-S atteint un mIOU de 78,6 % à une vitesse d’inférence de 93,2 FPS sur Cityscapes, et un mIOU de 80,1 % à 153,7 FPS sur CamVid.