HyperAIHyperAI
il y a 11 jours

CoBEV : Amélioration de la détection d'objets 3D au bord de la route grâce à la complémentarité entre profondeur et hauteur

Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang
CoBEV : Amélioration de la détection d'objets 3D au bord de la route grâce à la complémentarité entre profondeur et hauteur
Résumé

La détection 3D d’objets pilotée par des caméras de bord de route constitue une tâche essentielle dans les systèmes de transport intelligents, car elle étend la portée de perception au-delà des limites des véhicules centrés sur la vision et améliore la sécurité routière. Alors que les études antérieures souffrent de limitations en ne s’appuyant que sur des informations de profondeur ou d’altitude, nous constatons que la profondeur et l’altitude sont toutes deux pertinentes et, en réalité, complémentaires. La caractéristique de profondeur contient des indices géométriques précis, tandis que la caractéristique d’altitude se concentre principalement sur la distinction entre différentes catégories d’intervalle d’altitude, fournissant ainsi un contexte sémantique fondamental. Ce constat motive le développement de CoBEV (Complementary-BEV), un nouveau cadre d’apprentissage end-to-end pour la détection 3D monoculaire qui intègre à la fois la profondeur et l’altitude afin de construire des représentations BEV robustes. En substance, CoBEV estime la distribution de profondeur et d’altitude pour chaque pixel, puis élève les caractéristiques de la caméra dans l’espace 3D pour une fusion latérale via un nouveau module de sélection de caractéristiques complémentaires en deux étapes (CFS). Un cadre de distillation de caractéristiques BEV est également intégré de manière fluide afin d’améliorer davantage la précision de détection à partir des connaissances préalables du modèle enseignant CoBEV à fusion multimodale. Nous menons des expériences approfondies sur les benchmarks publics de détection 3D basés sur des caméras de bord de route DAIR-V2X-I et Rope3D, ainsi que sur le jeu de données privé Supremind-Road, démontrant que CoBEV atteint non seulement l’état de l’art en termes de précision, mais améliore également de manière significative la robustesse des méthodes précédentes dans des scénarios exigeants à longue distance et soumis à des perturbations de caméra bruyantes, tout en renforçant considérablement la généralisation dans des environnements hétérogènes caractérisés par des changements drastiques de scènes et de paramètres de caméra. Pour la première fois, le score AP véhicule d’un modèle basé sur caméra atteint 80 % sur DAIR-V2X-I en mode « facile ». Le code source sera rendu publiquement disponible à l’adresse suivante : https://github.com/MasterHow/CoBEV.