HyperAIHyperAI
il y a 2 mois

Vue Tri-Perspectives pour la Prédiction de l'Occupation Sémantique 3D Basée sur la Vision

Yuanhui Huang; Wenzhao Zheng; Yunpeng Zhang; Jie Zhou; Jiwen Lu
Vue Tri-Perspectives pour la Prédiction de l'Occupation Sémantique 3D Basée sur la Vision
Résumé

Les méthodes modernes de perception pour la conduite autonome axée sur la vision adoptent largement la représentation en vue d'oiseau (BEV) pour décrire une scène en 3D. Bien que cette représentation soit plus efficace que la représentation par voxels, elle éprouve des difficultés à décrire la structure 3D fine d'une scène avec un seul plan. Pour remédier à cela, nous proposons une représentation en trois perspectives (TPV), qui accompagne la vue d'oiseau de deux plans perpendiculaires supplémentaires. Nous modélisons chaque point de l'espace 3D en additionnant ses caractéristiques projetées sur les trois plans. Pour élever les caractéristiques d'image dans l'espace 3D TPV, nous proposons également un encodeur TPV basé sur le transformer (TPVFormer) afin d'obtenir efficacement les caractéristiques TPV. Nous utilisons le mécanisme d'attention pour agréger les caractéristiques d'image correspondant à chaque requête dans chaque plan TPV. Les expériences montrent que notre modèle formé avec une supervision clairsemée prédit efficacement l'occupation sémantique pour tous les voxels. Nous démontrons pour la première fois qu'en utilisant uniquement des entrées caméra, il est possible d'atteindre des performances comparables aux méthodes basées sur le LiDAR pour la tâche de segmentation LiDAR sur nuScenes. Code : https://github.com/wzzheng/TPVFormer.

Vue Tri-Perspectives pour la Prédiction de l'Occupation Sémantique 3D Basée sur la Vision | Articles de recherche récents | HyperAI