Apprentissage cross-modale pour l’adaptation de domaine en segmentation sémantique 3D

L’adaptation de domaine est une tâche essentielle pour permettre l’apprentissage lorsque les étiquettes sont rares. Alors que la plupart des travaux se concentrent uniquement sur la modalité image, de nombreux jeux de données importants sont multi-modaux. Afin d’exploiter la multi-modalité pour l’adaptation de domaine, nous proposons une approche d’apprentissage cross-modale, où nous imposons une cohérence entre les prédictions des deux modalités via un mimétisme mutuel. Nous contraindons notre réseau à produire des prédictions correctes sur les données étiquetées, ainsi qu’à émettre des prédictions cohérentes entre les modalités sur les données non étiquetées du domaine cible. Des expériences menées dans des scénarios d’adaptation de domaine non supervisée et semi-supervisée démontrent l’efficacité de cette nouvelle stratégie. Plus précisément, nous évaluons notre méthode sur la tâche de segmentation sémantique 3D à partir d’images 2D, de nuages de points 3D, ou des deux modalités conjointement. Nous utilisons des jeux de données récents dédiés au conduite autonome pour générer une large variété de scénarios d’adaptation de domaine, incluant des changements dans la disposition de la scène, l’éclairage, la configuration des capteurs, les conditions météorologiques, ainsi que des scénarios synthétique-vers-réel. Notre méthode obtient des résultats significativement supérieurs aux méthodes de référence unimodales dans tous les scénarios d’adaptation. Le code source est disponible publiquement à l’adresse suivante : https://github.com/valeoai/xmuda_journal