Modules Denses Efficaces de Convolution Asymétrique pour la Segmentation Sémantique en Temps Réel

La segmentation sémantique en temps réel joue un rôle crucial dans les applications pratiques telles que la conduite autonome et la robotique. La plupart des recherches en segmentation sémantique se concentrent sur l'amélioration de la précision des estimations, avec peu d'attention portée à l'efficacité. Plusieurs études précédentes qui mettent l'accent sur l'inférence rapide échouent souvent à produire des résultats de segmentation précis. Dans cet article, nous proposons un nouveau réseau convolutif nommé Efficient Dense modules with Asymmetric convolution (EDANet), qui utilise une structure de convolution asymétrique et intègre des convolutions dilatées et une connectivité dense pour atteindre une haute efficacité à faible coût computationnel et taille du modèle. EDANet est 2,7 fois plus rapide que le réseau de segmentation rapide existant, ICNet, tout en obtenant un score mIoU similaire sans aucun module contextuel supplémentaire, schéma de post-traitement ou modèle pré-entraîné. Nous évaluons EDANet sur les jeux de données Cityscapes et CamVid, et le comparons avec d'autres systèmes de pointe. Notre réseau peut fonctionner avec des entrées haute résolution à une vitesse de 108 images par seconde (FPS) sur une carte graphique GTX 1080Ti.