HyperAIHyperAI
il y a 17 jours

Vers une segmentation sémantique robuste des scènes d'accidents grâce à un échantillonnage mixte multi-sources et un apprentissage métalangage

Xinyu Luo, Jiaming Zhang, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen
Vers une segmentation sémantique robuste des scènes d'accidents grâce à un échantillonnage mixte multi-sources et un apprentissage métalangage
Résumé

Les véhicules autonomes utilisent la segmentation des scènes urbaines pour comprendre le monde réel comme un être humain et réagir en conséquence. La segmentation sémantique des scènes normales a connu une progression remarquable en précision sur les benchmarks classiques. Toutefois, une part importante des accidents réels implique des scènes anormales, telles que celles caractérisées par des déformations d’objets, des renversements ou des comportements de circulation inattendus. Étant donné qu’une petite erreur de segmentation dans les scènes de conduite peut entraîner des menaces graves pour la vie humaine, la robustesse de ces modèles face aux scénarios d’accident constitue un facteur extrêmement important pour garantir la sécurité des systèmes de transport intelligents.Dans cet article, nous proposons un cadre de adaptation de domaine non supervisée par méta-apprentissage à multi-sources (MMUDA), visant à améliorer la généralisation des transformateurs de segmentation aux scènes d’accidents extrêmes. Dans MMUDA, nous exploitons un échantillonnage mixte multi-domaines afin d’enrichir les images provenant de plusieurs domaines sources (scènes normales) avec les apparences des données cibles (scènes anormales). Pour entraîner notre modèle, nous intégrons et étudions une stratégie de méta-apprentissage dans un cadre multi-sources afin de renforcer la robustesse des résultats de segmentation. Nous améliorons également le noyau de segmentation (SegFormer) grâce à une architecture de décodeur HybridASPP, qui combine un pooling pyramidale à attention à fenêtre large et un pooling en bande, permettant ainsi une agrégation efficace des dépendances contextuelles à longue portée. Notre approche atteint un score mIoU de 46,97 % sur le benchmark DADA-seg, dépassant ainsi le modèle état-de-l’art précédent de plus de 7,50 %. Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/xinyu-laura/MMUDA.