Fast-SCNN : Réseau de Segmentation Sémantique Rapide

Le cadre encodeur-décodeur est à l'avant-garde pour la segmentation sémantique d'images hors ligne. Avec l'essor des systèmes autonomes, le calcul en temps réel devient de plus en plus souhaitable. Dans cet article, nous présentons Fast-SCNN (fast segmentation convolutional neural network), un modèle de segmentation sémantique supérieure au temps réel sur des données d'images haute résolution (1024x2048px) adapté au calcul efficace sur des dispositifs embarqués à faible mémoire. En nous appuyant sur les méthodes existantes à deux branches pour une segmentation rapide, nous introduisons notre module « apprentissage pour réduire la taille » qui calcule simultanément des caractéristiques de bas niveau pour plusieurs branches de résolution. Notre réseau combine les détails spatiaux à haute résolution avec des caractéristiques profondes extraites à une résolution inférieure, offrant une précision de 68,0 % en moyenne de l'intersection sur l'union à 123,5 images par seconde sur Cityscapes. Nous montrons également que le pré-entraînement à grande échelle n'est pas nécessaire. Nous validons rigoureusement notre métrique dans des expériences utilisant le pré-entraînement ImageNet et les données étiquetées grossièrement de Cityscapes. Enfin, nous démontrons un calcul encore plus rapide avec des résultats compétitifs sur des entrées sous-échantillonnées, sans aucune modification du réseau.