En défense des architectures pré-entraînées ImageNet pour la segmentation sémantique en temps réel d'images de conduite routière

Le récent succès des approches de segmentation sémantique sur des ensembles de données exigeants pour la conduite routière a suscité un intérêt dans de nombreux domaines d'application connexes. De nombreuses applications impliquent des prédictions en temps réel sur des plates-formes mobiles telles que les voitures, les drones et divers types de robots. La mise en place d'un système en temps réel est particulièrement difficile en raison de la complexité computationnelle extraordinaire qu'elle implique. De nombreuses études précédentes ont abordé ce défi en utilisant des architectures légères personnalisées qui réduisent la complexité computationnelle en diminuant la profondeur, la largeur et la capacité des couches par rapport aux architectures à usage général. Nous proposons une approche alternative qui offre une performance significativement meilleure sur une large gamme de budgets de calcul. Tout d'abord, nous nous appuyons sur une architecture à usage général légère comme moteur principal de reconnaissance. Ensuite, nous utilisons un échantillonnage léger avec des connexions latérales comme solution la plus rentable pour restaurer la résolution des prédictions. Enfin, nous proposons d'élargir le champ récepteur en fusionnant des caractéristiques partagées à plusieurs résolutions d'une manière innovante. Les expériences menées sur plusieurs ensembles de données de conduite routière montrent un avantage substantiel de l'approche proposée, que ce soit avec des paramètres pré-entraînés sur ImageNet ou lorsqu'on apprend à partir de zéro. Notre soumission au test Cityscapes intitulée SwiftNetRN-18 atteint 75,5 % de MIoU (Mean Intersection over Union) et réalise 39,9 Hz sur des images de 1024x2048 pixels sur une carte GTX1080Ti.