MonoRUn : Détection d'objets 3D monoculaire par reconstruction et propagation d'incertitude

La localisation d’objets en espace 3D constitue un défi majeur dans le domaine de la détection d’objets 3D à partir d’une seule vue (monoculaire). Les avancées récentes en estimation de pose 6DoF ont montré qu’il est possible d’atteindre une précision remarquable en termes de localisation en prédisant des cartes de correspondances denses 2D-3D entre l’image et un modèle 3D de l’objet, puis en estimant la pose de l’objet via l’algorithme Perspective-n-Point (PnP). Toutefois, ces méthodes reposent sur une formation supervisée utilisant des vérités terrain sur la géométrie des objets, une information difficile à obtenir dans des scènes extérieures réelles. Pour remédier à ce problème, nous proposons MonoRUn, un nouveau cadre de détection qui apprend les correspondances denses et la géométrie de manière auto-supervisée, à l’aide d’annotations simples de boîtes englobantes 3D. Pour estimer les coordonnées 3D liées aux pixels, nous utilisons un réseau de reconstruction régionale doté d’une prise en compte de l’incertitude. Lors de l’entraînement auto-supervisé, les coordonnées 3D prédites sont projetées de nouveau sur le plan image. Nous proposons une perte KL robuste afin de minimiser l’erreur de reprojection pondérée par l’incertitude. Pendant la phase de test, nous exploitons l’incertitude du réseau en la propageant à travers tous les modules ultérieurs. Plus précisément, nous utilisons un algorithme PnP piloté par l’incertitude pour estimer la pose de l’objet ainsi que sa matrice de covariance. Des expériences étendues démontrent que notre approche surpasser les méthodes de pointe actuelles sur le benchmark KITTI.