HyperAIHyperAI
il y a 16 jours

BEVDistill : Distillation BEV à travers les modalités pour la détection 3D multi-vue d'objets

Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
BEVDistill : Distillation BEV à travers les modalités pour la détection 3D multi-vue d'objets
Résumé

La détection d’objets 3D à partir de plusieurs vues d’image constitue une tâche fondamentale et difficile pour la compréhension des scènes visuelles. Grâce à son faible coût et à son efficacité élevée, la détection 3D multi-vues a démontré un fort potentiel d’application. Toutefois, détecter précisément les objets à partir de vues perspective s’avère extrêmement difficile en raison du manque d’information de profondeur. Les approches actuelles ont tendance à utiliser des architectures lourdes pour les encodeurs d’images, ce qui les rend inadaptées au déploiement dans des environnements réels. À la différence des images, les points LiDAR offrent une meilleure représentation des indices spatiaux, permettant une localisation hautement précise. Dans ce travail, nous explorons l’intégration de détecteurs basés sur LiDAR pour la détection 3D multi-vues. Au lieu de former directement un réseau de prédiction de profondeur, nous unifions les caractéristiques issues des images et du LiDAR dans l’espace Bird-Eye-View (BEV) et transférons de manière adaptative les connaissances entre des représentations non homogènes dans un cadre enseignant-élève. À cet effet, nous proposons \textbf{BEVDistill}, un cadre de distillation de connaissances (KD) croisées dans l’espace BEV pour la détection 3D multi-vues. Des expériences étendues montrent que la méthode proposée surpasser les approches actuelles de distillation de connaissances sur une base de référence hautement compétitive, BEVFormer, sans introduire de coût supplémentaire au moment de l’inférence. Notamment, notre meilleur modèle atteint un score de 59,4 NDS sur le classement test nuScenes, établissant ainsi un nouveau record d’état de l’art par rapport à divers détecteurs basés uniquement sur des images. Le code sera disponible à l’adresse suivante : https://github.com/zehuichen123/BEVDistill.