MonoDGP : Détection d'objets 3D monoculaire avec des a priori de requête décorrélée et d'erreur géométrique

La projection perspective a été largement utilisée dans les méthodes de détection d'objets 3D monoculaires. Elle introduit des a priori géométriques à partir des boîtes englobantes 2D et des dimensions des objets 3D pour réduire l'incertitude de l'estimation de profondeur. Cependant, en raison des erreurs de profondeur provenant de la surface visuelle de l'objet, la hauteur de la boîte englobante échoue souvent à représenter la hauteur centrale projetée réelle, ce qui affaiblit l'efficacité de la profondeur géométrique. La prédiction directe de la hauteur projetée entraîne inévitablement une perte des a priori 2D, tandis que la prédiction multi-profondeur avec des branches complexes n'exploite pas pleinement la profondeur géométrique. Cet article présente une méthode de détection d'objets 3D monoculaire basée sur un Transformer appelée MonoDGP, qui adopte des erreurs géométriques invariantes par rapport à la perspective pour modifier la formule de projection. Nous tentons également d'aborder systématiquement les mécanismes et l'efficacité derrière ces erreurs géométriques, qui constituent une alternative simple mais efficace à la prédiction multi-profondeur. De plus, MonoDGP découple le décodeur guidé par la profondeur et construit un décodeur 2D uniquement dépendant des caractéristiques visuelles, fournissant ainsi des a priori 2D et initialisant les requêtes d'objets sans être perturbé par la détection 3D. Pour optimiser davantage et ajuster finement les jetons d'entrée du décodeur Transformer, nous introduisons également une tête de segmentation régionale (RSH) qui génère des caractéristiques améliorées et des plongements segmentés. Notre méthode monoculaire montre des performances de pointe sur le benchmark KITTI sans données supplémentaires. Le code est disponible à l'adresse suivante : https://github.com/PuFanqi23/MonoDGP.