HyperAIHyperAI
il y a 2 mois

Réseaux à double résolution pour la segmentation sémantique en temps réel et précise des scènes routières

Hong, Yuanduo ; Pan, Huihui ; Sun, Weichao ; Jia, Yisong
Réseaux à double résolution pour la segmentation sémantique en temps réel et précise des scènes routières
Résumé

La segmentation sémantique est une technologie clé pour que les véhicules autonomes puissent comprendre les scènes environnantes. Les performances remarquables des modèles contemporains sont généralement obtenues au prix de calculs lourds et d'un temps d'inférence long, ce qui est intolérable pour la conduite autonome. En utilisant des architectures légères (encodeur-décodeur ou à double voie) ou en raisonnant sur des images de faible résolution, les méthodes récentes réalisent une analyse de scène très rapide, atteignant même plus de 100 FPS sur une seule carte GPU 1080Ti. Cependant, il existe encore un écart significatif en termes de performance entre ces méthodes en temps réel et les modèles basés sur des trames dilatées. Pour résoudre ce problème, nous avons proposé une famille de trames efficaces spécialement conçues pour la segmentation sémantique en temps réel. Les réseaux profonds à double résolution proposés (DDRNets) sont composés de deux branches profondes entre lesquelles plusieurs fusions bilatérales sont effectuées. De plus, nous avons conçu un nouveau module d'extraction d'informations contextuelles appelé Deep Aggregation Pyramid Pooling Module (DAPPM) afin d'élargir les champs récepteurs efficaces et de fusionner le contexte multi-échelle basé sur des cartes de caractéristiques de faible résolution. Notre méthode atteint un nouveau compromis optimal entre précision et vitesse sur les jeux de données Cityscapes et CamVid. En particulier, sur une seule carte GPU 2080Ti, DDRNet-23-slim obtient un mIoU de 77,4 % à 102 FPS sur l'ensemble de test Cityscapes et un mIoU de 74,7 % à 230 FPS sur l'ensemble de test CamVid. Avec des techniques d'augmentation des tests largement utilisées, notre méthode est supérieure à la plupart des modèles state-of-the-art tout en nécessitant beaucoup moins de calculs. Les codes source et les modèles entraînés sont disponibles en ligne.

Réseaux à double résolution pour la segmentation sémantique en temps réel et précise des scènes routières | Articles de recherche récents | HyperAI