HyperAIHyperAI
il y a 2 mois

MatrixVT : Transformation efficace multi-caméras vers vue bird’s-eye pour la perception 3D

Zhou, Hongyu ; Ge, Zheng ; Li, Zeming ; Zhang, Xiangyu
MatrixVT : Transformation efficace multi-caméras vers vue bird’s-eye pour la perception 3D
Résumé

Ce papier propose une méthode efficace de transformation multi-caméras vers une vue oiseau (Bird's-Eye-View, BEV) pour la perception 3D, baptisée MatrixVT. Les transformateurs de vue existants souffrent soit d'une efficacité de transformation médiocre, soit d'une dépendance à des opérateurs spécifiques à un appareil, ce qui entrave l'application généralisée des modèles BEV. En revanche, notre méthode génère les caractéristiques BEV de manière efficace en utilisant uniquement des convolutions et des multiplications matricielles (MatMul). Plus précisément, nous proposons de décrire la caractéristique BEV comme le produit matriciel (MatMul) de la caractéristique d'image et d'une matrice de transport de caractéristiques éparses (Feature Transporting Matrix, FTM). Un module d'extraction principale est ensuite introduit pour compresser la dimension des caractéristiques d'image et réduire l'éparsité de la FTM. De plus, nous proposons la décomposition Anneau & Rayon pour remplacer la FTM par deux matrices et reformuler notre pipeline afin de réduire davantage les calculs. Comparée aux méthodes existantes, MatrixVT bénéficie d'une vitesse plus rapide et d'une empreinte mémoire moindre tout en restant facilement déployable. Des expériences approfondies sur le benchmark nuScenes montrent que notre méthode est hautement efficace mais obtient des résultats comparables à ceux de l'état de l'art dans les tâches de détection d'objets et de segmentation cartographique.

MatrixVT : Transformation efficace multi-caméras vers vue bird’s-eye pour la perception 3D | Articles de recherche récents | HyperAI