CrossPoint : Apprentissage contrastif inter-modal auto-supervisé pour la compréhension des nuages de points 3D

L'annotation manuelle de grands ensembles de données de nuages de points pour diverses tâches telles que la classification d'objets 3D, la segmentation et la détection est souvent fastidieuse en raison de la structure irrégulière des nuages de points. L'apprentissage auto-supervisé, qui fonctionne sans aucune étiquetage humain, est une approche prometteuse pour résoudre ce problème. Nous observons dans le monde réel que les humains sont capables de transposer les concepts visuels appris à partir d'images 2D pour comprendre le monde 3D. Inspirés par cette constatation, nous proposons CrossPoint, une approche simple d'apprentissage contrastif inter-modalités pour apprendre des représentations de nuages de points 3D transférables. Cette méthode permet une correspondance 3D-2D des objets en maximisant l'accord entre les nuages de points et l'image 2D rendue correspondante dans l'espace invariant, tout en favorisant l'invariance aux transformations dans la modalité des nuages de points. Notre objectif d'entraînement conjoint combine les correspondances de caractéristiques à l'intérieur et entre les modalités, ce qui permet ainsi d'assembler un signal d'apprentissage riche provenant à la fois des modalités des nuages de points 3D et des images 2D de manière auto-supervisée. Les résultats expérimentaux montrent que notre approche surpasse les méthodes précédentes d'apprentissage non supervisé sur une gamme variée de tâches en aval, notamment la classification et la segmentation d'objets 3D. De plus, les études ablatives valident l'efficacité de notre approche pour une meilleure compréhension des nuages de points. Le code source et les modèles pré-entraînés sont disponibles à l'adresse http://github.com/MohamedAfham/CrossPoint.