HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

HSPFormer : Transformer de Perception Spatiale Hiérarchique pour la Segmentation Sémantique

{Guorong Cai Zongyue Wang Yiping Chen Ruisheng Wang Jinhe Su Changshe Zhang Ting Han Siyu Chen}

Résumé

La perception sémantique dans les scénarios de conduite joue un rôle crucial dans les systèmes de transport intelligents. Toutefois, les méthodes actuelles basées sur les Transformers pour la segmentation sémantique n’exploitent pas pleinement leur potentiel en matière de compréhension dynamique des scènes de conduite. Ces approches manquent souvent de raisonnement spatial, ne parvenant pas à corrélérer efficacement les pixels d'une image avec leurs positions spatiales, ce qui entraîne un dérive attentionnelle. Pour remédier à ce problème, nous proposons une nouvelle architecture, le Transformer à Perception Spatiale Hiérarchique (HSPFormer), qui intègre pour la première fois l'estimation de profondeur monoscopique et la segmentation sémantique dans un cadre unifié. Nous introduisons le réseau auxiliaire de perception de profondeur spatiale (SDPNet), une architecture permettant une extraction de caractéristiques multéchelle et une prédiction de cartes de profondeur multilayers afin d’établir une cohérence spatiale hiérarchique. Par ailleurs, nous concevons le réseau Transformer en pyramide hiérarchique (HPTNet), qui utilise l’estimation de profondeur comme embeddings de position apprenables pour former des représentations sémantiques corrélées spatialement et générer des informations contextuelles globales. Des expériences menées sur des jeux de données standard tels que KITTI-360, Cityscapes et NYU Depth V2 montrent que HSPFormer surpasser plusieurs réseaux de pointe, atteignant des performances prometteuses avec un mIoU de 66,82 % au top-1 sur KITTI-360, 83,8 % de mIoU sur Cityscapes, et 57,7 % de mIoU sur NYU Depth V2, respectivement. Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/SY-Ch/HSPFormer.

Benchmarks

BenchmarkMéthodologieMétriques
semantic-segmentation-on-kitti-360HSPFormer-DBS(RGB-Depth)
mIoU: 67.32
semantic-segmentation-on-kitti-360HSPFormer-UFS(RGB)
mIoU: 66.82
semantic-segmentation-on-nyu-depth-v2HSPFormer(PVT v2-B4)
Mean IoU: 57.8%

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HSPFormer : Transformer de Perception Spatiale Hiérarchique pour la Segmentation Sémantique | Articles de recherche | HyperAI