VSRD : Rendu de Silhouettes Volumétriques Conscient des Instances pour la Détection d'Objets 3D Faiblement Supervisée

La détection d'objets 3D monoculaire présente un défi majeur dans la compréhension des scènes 3D en raison de sa nature intrinsèquement mal posée en estimation de profondeur monoculaire. Les méthodes existantes s'appuient fortement sur l'apprentissage supervisé utilisant de nombreuses étiquettes 3D, généralement obtenues par des annotations coûteuses et laborieuses sur les nuages de points LiDAR. Pour résoudre ce problème, nous proposons un nouveau cadre de détection d'objets 3D faiblement supervisé appelé VSRD (Volumetric Silhouette Rendering for Detection) permettant d'entraîner des détecteurs d'objets 3D sans aucune supervision 3D, mais uniquement avec une supervision 2D faible. VSRD comprend l'étiquetage automatique 3D multi-vue et l'entraînement subséquent des détecteurs d'objets 3D monoculaires à l'aide des pseudo-étiquettes générées lors de l'étape d'étiquetage automatique. Dans cette étape d'étiquetage automatique, nous représentons la surface de chaque instance sous forme de champ de distance signée (SDF) et rendons son silhouettage comme un masque d'instance grâce à notre rendu volumétrique de silhouettage sensible aux instances. Pour optimiser directement les boîtes englobantes 3D par le biais du rendu, nous décomposons le SDF de chaque instance en le SDF d'un parallélépipède droit et le champ de distance résiduel (RDF) qui représente la différence par rapport au parallélépipède droit. Ce mécanisme nous permet d'optimiser les boîtes englobantes 3D de manière end-to-end en comparant les masques d'instances rendus avec les masques d'instances véritables. Les boîtes englobantes 3D optimisées servent ainsi de données d'entraînement efficaces pour la détection d'objets 3D. Nous menons des expériences approfondies sur le jeu de données KITTI-360, montrant que notre méthode surpasses les méthodes existantes de détection d'objets 3D faiblement supervisées. Le code est disponible à l'adresse suivante : https://github.com/skmhrk1209/VSRD.