HyperAIHyperAI
il y a 3 mois

Transfert au-delà du champ de vision : segmentation sémantique panoramique dense via une adaptation de domaine non supervisée

Jiaming Zhang, Chaoxiang Ma, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen
Transfert au-delà du champ de vision : segmentation sémantique panoramique dense via une adaptation de domaine non supervisée
Résumé

Les véhicules autonomes bénéficient clairement du champ de vision étendu (FoV) offert par les capteurs 360 degrés, mais les approches modernes de segmentation sémantique s'appuient fortement sur des données d'entraînement annotées, rarement disponibles pour les images panoramiques. Nous abordons ce problème du point de vue de l'adaptation de domaine et proposons une méthode de segmentation sémantique panoramique dans un cadre où les données d'entraînement étiquetées proviennent d'une distribution différente, issue d'images conventionnelles capturées par des caméras à lentille pinhole. Pour y parvenir, nous formalisons la tâche d'adaptation de domaine non supervisée pour la segmentation sémantique panoramique, et collectons DensePASS — un nouveau jeu de données fortement annoté pour la segmentation panoramique dans des conditions de domaine croisé, spécifiquement conçu pour étudier le décalage de domaine entre caméras pinhole et panoramiques, et accompagné d'exemples d'entraînement provenant de caméras pinhole extraits de Cityscapes. DensePASS couvre à la fois des images 360 degrés étiquetées et non étiquetées, les données étiquetées incluant 19 classes correspondant explicitement aux catégories présentes dans le domaine source (c’est-à-dire le domaine pinhole). Étant donné que les modèles basés sur les données sont particulièrement sensibles aux changements de distribution des données, nous introduisons P2PDA — un cadre générique pour la segmentation sémantique de pinhole à panoramique — qui surmonte le défi de divergence de domaine grâce à différentes variantes de modules d'adaptation de domaine renforcés par des mécanismes d'attention, permettant ainsi le transfert dans les espaces de sortie, de caractéristiques et de confiance des caractéristiques. P2PDA intègre une adaptation consciente de l’incertitude, utilisant des valeurs de confiance régulées en temps réel par des têtes d’attention, en synergie avec des prédictions discordantes. Ce cadre facilite l’échange de contexte lors de l’apprentissage des correspondances entre domaines et améliore considérablement les performances d’adaptation des modèles axés sur la précision comme ceux axés sur l’efficacité. Des expériences approfondies montrent que notre cadre surpasser clairement les approches d’adaptation de domaine non supervisée ainsi que les méthodes spécialisées de segmentation panoramique.