ERFNet : Réseau convolutif résiduel factorisé efficace pour la segmentation sémantique en temps réel
La segmentation sémantique est une tâche exigeante qui répond de manière unifiée à la plupart des besoins de perception des véhicules intelligents (IV). Les réseaux de neurones profonds se distinguent particulièrement dans cette tâche, car ils peuvent être entraînés de bout en bout pour classifier avec précision plusieurs catégories d’objets dans une image au niveau de chaque pixel. Toutefois, un bon compromis entre qualité élevée et consommation de ressources computationnelles n’est pas encore atteint par les approches d’état de l’art en segmentation sémantique, ce qui limite leur application dans les véhicules réels. Dans cet article, nous proposons une architecture profonde capable de fonctionner en temps réel tout en offrant une segmentation sémantique précise. Le cœur de notre architecture repose sur une nouvelle couche utilisant des connexions résiduelles et des convolutions factorisées, afin de préserver une efficacité élevée tout en maintenant une précision remarquable. Notre approche atteint une vitesse supérieure à 83 FPS sur une seule Titan X, et 7 FPS sur une Jetson TX1 (GPU embarqué). Une série exhaustive d’expériences menées sur le jeu de données Cityscapes, disponible publiquement, démontre que notre système atteint une précision similaire à celle de l’état de l’art, tout en étant plusieurs ordres de grandeur plus rapide à calculer que d’autres architectures offrant une précision optimale. Ce compromis obtenu en fait une solution idéale pour la compréhension de scène dans les applications de véhicules intelligents. Le code source est disponible publiquement à l’adresse suivante : https://github.com/Eromera/erfnet