ENet : Une architecture de réseau neuronal profond pour la segmentation sémantique en temps réel

La capacité d'effectuer une segmentation sémantique au niveau des pixels en temps réel est d'une importance primordiale dans les applications mobiles. Les réseaux neuronaux profonds récents conçus pour cette tâche présentent l'inconvénient de nécessiter un grand nombre d'opérations à virgule flottante et ont des temps d'exécution longs qui entravent leur utilisation. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal profond nommée ENet (efficient neural network), créée spécifiquement pour les tâches nécessitant une faible latence. ENet est jusqu'à 18 fois plus rapide, nécessite 75 fois moins de FLOPs, possède 79 fois moins de paramètres et fournit une précision similaire ou supérieure aux modèles existants. Nous avons testé cette architecture sur les ensembles de données CamVid, Cityscapes et SUN, et nous rapportons les comparaisons avec les méthodes actuelles de pointe ainsi que les compromis entre la précision et le temps de traitement du réseau. Nous présentons également des mesures de performance de l'architecture proposée sur des systèmes embarqués et suggérons des améliorations logicielles possibles qui pourraient rendre ENet encore plus rapide.