Drive&Segment : Segmentation sémantique non supervisée de scènes urbaines par distillation cross-modale

Ce travail s'intéresse à l'apprentissage de la segmentation sémantique d'images au niveau des pixels dans des scènes urbaines, sans aucune annotation manuelle, uniquement à partir de données brutes non traitées recueillies par des véhicules équipés de caméras et de capteurs LiDAR, circulant dans une ville. Nos contributions sont triples. Premièrement, nous proposons une nouvelle méthode d'apprentissage non supervisé croisant les modalités pour la segmentation sémantique d'images, en exploitant des données synchronisées LiDAR et images. L'élément clé de notre approche réside dans l'utilisation d'un module de propositions d'objets qui analyse le nuage de points LiDAR afin d'obtenir des propositions d'objets spatialement cohérents. Deuxièmement, nous démontrons que ces propositions d'objets 3D peuvent être alignées avec les images d'entrée et regroupées de manière fiable en pseudo-classes sémantiquement significatives. Enfin, nous développons une méthode de distillation croisant les modalités qui utilise des données d'images partiellement annotées avec ces pseudo-classes pour entraîner un modèle basé sur un transformateur afin de réaliser la segmentation sémantique d'images. Nous évaluons les capacités de généralisation de notre méthode sur quatre jeux de données de test distincts (Cityscapes, Dark Zurich, Nighttime Driving et ACDC), sans aucune adaptation fine (fine-tuning), et montrons des améliorations significatives par rapport à l'état de l'art actuel pour ce problème. Pour accéder au code et obtenir davantage d'informations, rendez-vous sur la page du projet : https://vobecant.github.io/DriveAndSegment/.