BEVDepth : Acquisition of Reliable Depth for Multi-view 3D Object Detection

Dans cette recherche, nous proposons un nouveau détecteur d’objets 3D basé sur des caméras, doté d’une estimation de profondeur fiable, appelé BEVDepth, pour la détection d’objets 3D en vue de dessus (Bird’s-Eye-View, BEV). Notre travail s’appuie sur une observation clé : les approches récentes présentent une estimation de profondeur surprenamment insuffisante, alors que la profondeur est essentielle à la détection 3D à partir de caméras. BEVDepth résout ce problème en exploitant une supervision explicite de la profondeur. Nous introduisons également un module d’estimation de profondeur conscient des caméras, afin d’améliorer la capacité de prédiction de profondeur. Par ailleurs, nous concevons un nouveau module de raffinement de profondeur pour atténuer les effets secondaires dus à l’imprécision de la déprojection des caractéristiques. Grâce à un pooling de voxels efficace personnalisé et à un mécanisme multi-images, BEVDepth atteint une nouvelle meilleure performance mondiale de 60,9 % en NDS sur le jeu de test exigeant nuScenes, tout en maintenant une haute efficacité. Pour la première fois, le score NDS atteint 60 % pour un modèle basé uniquement sur des caméras.