HyperAIHyperAI
il y a 2 mois

OccFormer : Transformateur à double voie pour la prédiction de l'occupation sémantique 3D basée sur la vision

Zhang, Yunpeng ; Zhu, Zheng ; Du, Dalong
OccFormer : Transformateur à double voie pour la prédiction de l'occupation sémantique 3D basée sur la vision
Résumé

La perception basée sur la vision pour la conduite autonome a connu une transformation des représentations en vue d'oiseau (BEV) vers l'occupation sémantique 3D. Comparativement aux plans BEV, l'occupation sémantique 3D fournit des informations structurelles supplémentaires dans la direction verticale. Cet article présente OccFormer, un réseau de transformateurs à double voie capable de traiter efficacement le volume 3D pour prédire l'occupation sémantique. OccFormer réalise une encodage à longue portée, dynamique et efficace des caractéristiques 3D générées par les caméras. Il est obtenu en décomposant le traitement 3D intensif en deux voies de transformateurs locales et globales le long du plan horizontal. Pour le décodeur d'occupation, nous adaptons le Mask2Former standard en proposant le preserve-pooling et l'échantillonnage guidé par classe, ce qui atténue notablement la rareté et l'imbalance des classes. Les résultats expérimentaux montrent que OccFormer surpasse significativement les méthodes existantes pour l'achèvement sémantique de scènes sur le jeu de données SemanticKITTI et pour la segmentation sémantique LiDAR sur le jeu de données nuScenes. Le code est disponible à l'adresse \url{https://github.com/zhangyp15/OccFormer}.

OccFormer : Transformateur à double voie pour la prédiction de l'occupation sémantique 3D basée sur la vision | Articles de recherche récents | HyperAI