HyperAIHyperAI
il y a 11 jours

SparseBEV : Détection 3D d'objets à haute performance à partir de vidéos multi-caméras par une approche creuse

Haisong Liu, Yao Teng, Tao Lu, Haiguang Wang, Limin Wang
SparseBEV : Détection 3D d'objets à haute performance à partir de vidéos multi-caméras par une approche creuse
Résumé

La détection d’objets 3D basée sur caméra dans l’espace BEV (Bird’s Eye View) a suscité un intérêt croissant au cours des dernières années. Les détecteurs denses suivent généralement une approche en deux étapes : ils construisent d’abord une caractéristique BEV dense, puis effectuent la détection d’objets dans cet espace, ce qui entraîne des transformations de vue complexes et un coût computationnel élevé. À l’opposé, les détecteurs creux adoptent une approche basée sur des requêtes, sans construction explicite de caractéristiques BEV denses, mais ils obtiennent généralement des performances inférieures à celles des détecteurs denses. Dans ce travail, nous montrons que la clé pour réduire cet écart de performance réside dans l’adaptabilité du détecteur à la fois dans l’espace BEV et dans l’espace image. Pour atteindre cet objectif, nous proposons SparseBEV, un détecteur 3D entièrement creux qui surpasser les méthodes denses. SparseBEV repose sur trois innovations clés : (1) une attention auto-adaptative à échelle pour agréger les caractéristiques avec un champ réceptif adaptable dans l’espace BEV ; (2) un échantillonnage spatio-temporel adaptatif pour générer des positions d’échantillonnage sous la guidance des requêtes ; (3) un mélange adaptatif pour décoder les caractéristiques échantillonnées à l’aide de poids dynamiques issus des requêtes. Sur le split de test de nuScenes, SparseBEV atteint une performance de pointe de 67,5 NDS. Sur le split de validation, il atteint 55,8 NDS tout en maintenant une vitesse d’inférence en temps réel de 23,5 FPS. Le code est disponible à l’adresse suivante : https://github.com/MCG-NJU/SparseBEV.

SparseBEV : Détection 3D d'objets à haute performance à partir de vidéos multi-caméras par une approche creuse | Articles de recherche récents | HyperAI