Apprentissage d'une segmentation généralisée pour des scènes brumeuses par une guidance en ondelettes bidirectionnelle

Apprendre des sémantiques de scène capables de se généraliser efficacement aux conditions brumeuses est essentiel pour des applications critiques en matière de sécurité telles que la conduite autonome. Les méthodes existantes nécessitent à la fois des images claires annotées et des images brumeuses pour entraîner un modèle d’adaptation de domaine par curriculum. Malheureusement, ces approches ne peuvent se généraliser qu’aux scènes brumeuses spécifiques observées durant l’entraînement, alors que les scènes brumeuses varient considérablement en termes de style urbain et de type de brume. Dans ce travail, nous proposons d’apprendre une segmentation de scène bien généralisable aux scènes brumeuses dans un cadre de généralisation de domaine, sans jamais inclure d’images brumeuses pendant l’étape d’entraînement, permettant ainsi une généralisation à toute scène brumeuse inédite. Nous affirmons qu’un modèle de segmentation idéal capable de se généraliser efficacement aux scènes brumeuses doit simultanément renforcer le contenu, décorrélater le style urbain et décorrélater le style de la brume. Étant donné que le contenu (par exemple, la sémantique de scène) est principalement codé dans les caractéristiques à basse fréquence, tandis que le style urbain et la brume sont davantage présents dans les caractéristiques à haute fréquence, nous proposons un nouveau mécanisme de guidance par ondelettes bidirectionnelles (BWG) afin de réaliser ces trois objectifs de manière décomposée et ciblée. Grâce à la transformation en ondelettes de Haar, la composante à basse fréquence est concentrée dans une attention auto-associative destinée au renforcement du contenu, tandis que la composante à haute fréquence est dirigée vers une attention auto-associative dédiée à la décorrélation du style et de la brume. Ce mécanisme est intégré de manière apprenable dans les pipelines existants de segmentation basés sur les Transformers à niveau de masque. Des expériences à grande échelle sont menées sur quatre jeux de données de segmentation de scènes brumeuses, sous diverses configurations intéressantes. Le modèle proposé dépasse significativement les méthodes existantes de segmentation supervisée directe, d’adaptation de domaine par curriculum et de généralisation de domaine. Le code source est disponible à l’adresse suivante : https://github.com/BiQiWHU/BWG.