Profondeur probabiliste et géométrique : détection d'objets en perspective

La détection d'objets 3D constitue une capacité essentielle dans de nombreuses applications pratiques, telles que les systèmes d'aide à la conduite. La détection 3D monoscopique, en tant que cadre général représentatif parmi les approches basées sur l'image, offre une solution plus économique que les méthodes conventionnelles reposant sur les capteurs LiDAR, mais ses performances restent insatisfaisantes. Ce papier présente d'abord une étude systématique de ce problème. Nous observons que la détection 3D monoscopique actuelle peut être simplifiée en un problème d'estimation de profondeur par instance : l'estimation imprécise de la profondeur d'une instance bloque toute amélioration des autres prédictions d'attributs 3D, limitant ainsi les performances globales de détection. En outre, les méthodes récentes estiment directement la profondeur à partir d'instances ou de pixels isolés, tout en ignorant les relations géométriques entre objets différents. À cet effet, nous construisons des graphes de relations géométriques entre les objets prédits et utilisons ces graphes pour améliorer l'estimation de profondeur. Étant donné que l'estimation initiale de profondeur pour chaque instance est généralement imprécise dans ce cadre mal posé, nous introduisons une représentation probabiliste afin de capturer l'incertitude. Cette représentation fournit un indicateur crucial pour identifier les prédictions fiables et guider efficacement la propagation de la profondeur. Malgré la simplicité de l'idée fondamentale, notre méthode, PGD (Probabilistic Graph-based Depth estimation), obtient des améliorations significatives sur les benchmarks KITTI et nuScenes, atteignant la première place parmi toutes les méthodes monoscopiques basées uniquement sur la vision, tout en maintenant une efficacité en temps réel. Le code et les modèles seront publiés à l'adresse suivante : https://github.com/open-mmlab/mmdetection3d.