WeakM3D : Vers la détection d'objets 3D monoculaire faiblement supervisée

La détection d'objets 3D monoculaire est l'une des tâches les plus complexes dans la compréhension de scènes 3D. En raison de la nature mal posée des images monoculaires, les méthodes actuelles de détection 3D monoculaire dépendent fortement d'un entraînement avec des étiquettes de boîtes 3D annotées manuellement sur les nuages de points LiDAR. Ce processus d'annotation est très laborieux et coûteux. Pour réduire cette dépendance aux étiquettes de boîtes 3D, dans cet article, nous explorons la détection 3D monoculaire faiblement supervisée. Plus précisément, nous détectons d'abord des boîtes 2D sur l'image. Ensuite, nous utilisons ces boîtes 2D générées pour sélectionner les points LiDAR correspondants à la région d'intérêt (RoI) comme supervision faible. Finalement, nous utilisons un réseau pour prédire des boîtes 3D qui s'alignent étroitement avec les points LiDAR associés à la région d'intérêt (RoI). Ce réseau est appris en minimisant notre nouvelle perte d'alignement 3D proposée entre les estimations de boîtes 3D et les points LiDAR correspondants à la région d'intérêt (RoI). Nous illustrerons les défis potentiels du problème d'apprentissage mentionné ci-dessus et résoudrons ces défis en introduisant plusieurs conceptions efficaces dans notre méthode. Le code sera disponible sur https://github.com/SPengLiang/WeakM3D.