HyperAIHyperAI
il y a 17 jours

HSPFormer : Transformer de Perception Spatiale Hiérarchique pour la Segmentation Sémantique

{Guorong Cai, Zongyue Wang, Yiping Chen, Ruisheng Wang, Jinhe Su, Changshe Zhang, Ting Han, Siyu Chen}
Résumé

La perception sémantique dans les scénarios de conduite joue un rôle crucial dans les systèmes de transport intelligents. Toutefois, les méthodes actuelles basées sur les Transformers pour la segmentation sémantique n’exploitent pas pleinement leur potentiel en matière de compréhension dynamique des scènes de conduite. Ces approches manquent souvent de raisonnement spatial, ne parvenant pas à corrélérer efficacement les pixels d'une image avec leurs positions spatiales, ce qui entraîne un dérive attentionnelle. Pour remédier à ce problème, nous proposons une nouvelle architecture, le Transformer à Perception Spatiale Hiérarchique (HSPFormer), qui intègre pour la première fois l'estimation de profondeur monoscopique et la segmentation sémantique dans un cadre unifié. Nous introduisons le réseau auxiliaire de perception de profondeur spatiale (SDPNet), une architecture permettant une extraction de caractéristiques multéchelle et une prédiction de cartes de profondeur multilayers afin d’établir une cohérence spatiale hiérarchique. Par ailleurs, nous concevons le réseau Transformer en pyramide hiérarchique (HPTNet), qui utilise l’estimation de profondeur comme embeddings de position apprenables pour former des représentations sémantiques corrélées spatialement et générer des informations contextuelles globales. Des expériences menées sur des jeux de données standard tels que KITTI-360, Cityscapes et NYU Depth V2 montrent que HSPFormer surpasser plusieurs réseaux de pointe, atteignant des performances prometteuses avec un mIoU de 66,82 % au top-1 sur KITTI-360, 83,8 % de mIoU sur Cityscapes, et 57,7 % de mIoU sur NYU Depth V2, respectivement. Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/SY-Ch/HSPFormer.