HyperAIHyperAI
il y a 15 jours

GeoBEV : Apprentissage de la représentation BEV géométrique pour la détection 3D multi-vue d'objets

Jinqing Zhang, Yanan Zhang, Yunlong Qi, Zehua Fu, Qingjie Liu, Yunhong Wang
GeoBEV : Apprentissage de la représentation BEV géométrique pour la détection 3D multi-vue d'objets
Résumé

La représentation Bird's-Eye-View (BEV) s’est imposée comme un paradigme dominant pour la détection 3D d’objets à partir de multiples vues, démontrant des capacités perceptuelles remarquables. Toutefois, les méthodes existantes négligent la qualité géométrique de la représentation BEV, qui reste généralement à faible résolution et ne parvient pas à restaurer fidèlement les informations géométriques authentiques de la scène. Dans cet article, nous identifions les limites des approches antérieures qui entravent la qualité géométrique de la représentation BEV, et proposons une nouvelle méthode de discrétisation BEV appelée Radial-Cartesian BEV Sampling (RC-Sampling), qui surpassent les autres méthodes de transformation de caractéristiques en générant efficacement une représentation BEV dense et à haute résolution, permettant ainsi de restaurer des informations géométriques fines. Par ailleurs, nous introduisons un nouveau label, appelé In-Box Label, qui remplace le label de profondeur traditionnel extrait des points LiDAR. Ce label reflète la structure géométrique réelle des objets, et non seulement leurs surfaces, en injectant des informations géométriques du monde réel dans la représentation BEV. En combinaison avec ce label, nous développons une nouvelle fonction de perte, nommée Centroid-Aware Inner Loss (CAI Loss), conçue pour capturer la structure géométrique interne des objets. Enfin, nous intégrons ces modules dans un nouveau détecteur 3D multi-vues, baptisé GeoBEV, qui atteint un résultat de pointe de 66,2 % NDS sur le jeu de test nuScenes. Le code est disponible à l’adresse suivante : https://github.com/mengtan00/GeoBEV.git.

GeoBEV : Apprentissage de la représentation BEV géométrique pour la détection 3D multi-vue d'objets | Articles de recherche récents | HyperAI