Réseau de fusion en temps réel pour la segmentation sémantique RGB-D intégrant la détection d'obstacles imprévus pour les images de conduite routière

La segmentation sémantique a connu des progrès remarquables grâce au succès des réseaux de neurones convolutifs profonds. Étant donné les exigences du pilotage automatisé, la segmentation sémantique en temps réel est devenue ces dernières années un domaine de recherche très actif. Toutefois, malgré la disponibilité facile des informations de profondeur actuellement, très peu d’études se concentrent sur la segmentation sémantique en temps réel fondée sur la fusion RGB-D. Dans cet article, nous proposons un réseau de segmentation sémantique en temps réel basé sur la fusion, nommé RFNet, qui exploite efficacement les informations complémentaires provenant de modalités différentes. En s’appuyant sur une architecture réseau efficace, RFNet est capable de fonctionner rapidement, répondant ainsi aux besoins des applications automobiles autonomes. L’entraînement sur plusieurs jeux de données est utilisé pour intégrer la détection d’obstacles de petite taille inattendus, enrichissant ainsi le nombre de catégories identifiables nécessaires pour faire face aux dangers imprévus dans le monde réel. Une série d’expériences approfondies démontre l’efficacité de notre cadre. Sur le jeu de données Cityscapes, notre méthode surpasser les meilleurs modèles précédents en termes de précision, tout en atteignant une vitesse d’inférence de 22 Hz à la résolution complète de 2048×1024, dépassant ainsi la plupart des réseaux RGB-D existants.