Apprendre des contextes monoculaires auxiliaires aide la détection d'objets 3D monoculaire

La détection 3D d'objets à partir d'une seule caméra vise à localiser des boîtes englobantes 3D à partir d'une image 2D unique. Il s'agit d'un problème particulièrement difficile et reste encore ouvert, notamment lorsque aucune information supplémentaire (telle que la profondeur, les données LiDAR ou des séquences temporelles multiples) n'est disponible durant l'entraînement et/ou l'inférence. Ce papier propose une formulation simple mais efficace pour la détection 3D monocabulaire sans exploiter aucune information additionnelle. Il introduit la méthode MonoCon, qui apprend des contextes monoculaires comme tâches auxiliaires durant l'entraînement afin de soutenir la détection 3D à partir d'une seule caméra. L'idée centrale repose sur le fait qu’avec les boîtes englobantes 3D annotées des objets présents dans une image, un ensemble riche de signaux de supervision projetés 2D bien posés est disponible pendant l'entraînement, tels que les points-clés des coins projetés et leurs vecteurs d'offset associés par rapport au centre de la boîte 2D, lesquels devraient être exploités comme tâches auxiliaires. La méthode MonoCon est inspirée, au niveau théorique, du théorème de Cramér-Wold en théorie de la mesure. En pratique, elle repose sur une architecture très simple et end-to-end pour justifier l'efficacité de l'apprentissage de ces contextes monoculaires auxiliaires, composée de trois éléments : un squelette de caractéristiques basé sur un réseau de neurones profonds (DNN), un ensemble de branches de régression pour apprendre les paramètres essentiels utilisés dans la prédiction des boîtes 3D, et un autre ensemble de branches de régression dédiées à l'apprentissage des contextes auxiliaires. Une fois l'entraînement terminé, les branches de régression associées aux contextes auxiliaires sont éliminées afin d'améliorer l'efficacité de l'inférence. Dans les expérimentations menées sur le benchmark KITTI (catégories voiture, piéton et cycliste), la méthode MonoCon dépasse toutes les approches antérieures sur la catégorie voiture selon le classement officiel, tout en obtenant des performances comparables pour les piétons et cyclistes en termes de précision. Grâce à sa conception simple, MonoCon atteint la vitesse d'inférence la plus rapide parmi les méthodes comparées, avec 38,7 images par seconde (fps).