MonoDETR : Transformer guidé par la profondeur pour la détection d'objets 3D monoculaire

La détection d'objets 3D monoculaire a longtemps été une tâche difficile dans le domaine de la conduite autonome. La plupart des méthodes existantes suivent les détecteurs 2D conventionnels pour localiser en premier lieu les centres des objets, puis prédire leurs attributs 3D à partir des caractéristiques voisines. Cependant, l'utilisation exclusive de caractéristiques visuelles locales est insuffisante pour comprendre les structures spatiales 3D au niveau de la scène et néglige les relations de profondeur à longue portée entre les objets.Dans cet article, nous présentons le premier cadre DETR (DEtection TRansformer) pour la détection monoculaire avec un transformateur guidé par la profondeur, nommé MonoDETR. Nous modifions le transformateur standard pour qu'il soit sensible à la profondeur et guidons l'ensemble du processus de détection par des indices de profondeur contextuels. Plus précisément, en parallèle du codificateur visuel qui capture les apparences des objets, nous introduisons une prédiction de carte de profondeur du premier plan et spécialisons un codificateur de profondeur pour extraire des plongements de profondeur non locaux.Ensuite, nous formulons les candidats d'objets 3D comme des requêtes apprises et proposons un décodeur guidé par la profondeur pour effectuer des interactions de profondeur entre l'objet et la scène. De cette manière, chaque requête d'objet estime ses attributs 3D de manière adaptative à partir des régions guidées par la profondeur sur l'image et n'est plus limitée aux caractéristiques visuelles locales.Sur le banc d'essai KITTI utilisant des images monoculaires en entrée, MonoDETR atteint des performances de pointe sans nécessiter d'annotations supplémentaires de profondeur dense. De plus, nos modules guidés par la profondeur peuvent être intégrés facilement pour améliorer les détecteurs d'objets 3D multi-vues sur le jeu de données nuScenes, ce qui témoigne de notre capacité généralisée supérieure.Le code source est disponible à l'adresse suivante : https://github.com/ZrrSkywalker/MonoDETR.