HyperAIHyperAI

Command Palette

Search for a command to run...

OccFormer : Transformateur à double voie pour la prédiction de l'occupation sémantique 3D basée sur la vision

Yunpeng Zhang Zheng Zhu* Dalong Du

Résumé

La perception basée sur la vision pour la conduite autonome a connu une transformation des représentations en vue d'oiseau (BEV) vers l'occupation sémantique 3D. Comparativement aux plans BEV, l'occupation sémantique 3D fournit des informations structurelles supplémentaires dans la direction verticale. Cet article présente OccFormer, un réseau de transformateurs à double voie capable de traiter efficacement le volume 3D pour prédire l'occupation sémantique. OccFormer réalise une encodage à longue portée, dynamique et efficace des caractéristiques 3D générées par les caméras. Il est obtenu en décomposant le traitement 3D intensif en deux voies de transformateurs locales et globales le long du plan horizontal. Pour le décodeur d'occupation, nous adaptons le Mask2Former standard en proposant le preserve-pooling et l'échantillonnage guidé par classe, ce qui atténue notablement la rareté et l'imbalance des classes. Les résultats expérimentaux montrent que OccFormer surpasse significativement les méthodes existantes pour l'achèvement sémantique de scènes sur le jeu de données SemanticKITTI et pour la segmentation sémantique LiDAR sur le jeu de données nuScenes. Le code est disponible à l'adresse \url{https://github.com/zhangyp15/OccFormer}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp