Réseau de distribution de profondeur catégorielle pour la détection 3D monocular d'objets

La détection 3D d'objets à l'aide d'une seule caméra constitue un problème clé pour les véhicules autonomes, car elle offre une solution à configuration simple par rapport aux systèmes multi-capteurs classiques. Le défi principal de la détection 3D monocabulaire réside dans la prédiction précise de la profondeur des objets, qui doit être inférée à partir de signaux provenant des objets et de la scène, en raison de l'absence de mesure directe de distance. De nombreuses méthodes tentent d'estimer directement la profondeur afin d'aider à la détection 3D, mais leur performance reste limitée en raison de l'inexactitude de la profondeur. Notre solution proposée, le réseau de distribution catégorielle de profondeur (CaDDN), utilise pour chaque pixel une distribution catégorielle de profondeur prédite afin de projeter des informations contextuelles riches vers l'intervalle de profondeur approprié dans l'espace 3D. Nous exploitons ensuite une projection efficace en vue de dessus (bird's-eye-view) et un détecteur à une seule étape pour produire les boîtes englobantes finales. Nous avons conçu CaDDN comme une approche entièrement différentiable et end-to-end, permettant une estimation conjointe de la profondeur et de la détection d'objets. Nous avons validé notre méthode sur le benchmark KITTI pour la détection 3D d'objets, où elle obtient la première place parmi les méthodes monocabulaires publiées. Nous fournissons également les premiers résultats de détection 3D monocabulaire sur le tout nouveau dataset Waymo Open Dataset. Un dépôt de code pour CaDDN est mis à disposition.