Apprentissage non supervisé de représentations 3D à grande échelle par contraste de scène masquée

En tant qu’œuvre pionnière, PointContrast réalise un apprentissage non supervisé de représentations 3D en exploitant l’apprentissage contrastif sur des trames brutes RGB-D, et démontre son efficacité sur diverses tâches ultérieures. Toutefois, la tendance vers un apprentissage non supervisé à grande échelle en 3D n’a pas encore émergé, en raison de deux obstacles majeurs : l’inefficacité du recouvrement des trames RGB-D comme vues contrastives, et le phénomène gênant de collapse de mode décrit dans des travaux antérieurs. En transformant ces deux obstacles en pierres angulaires empiriques, nous proposons tout d’abord un cadre d’apprentissage contrastif efficace et performant, qui génère directement des vues contrastives à partir de nuages de points au niveau de scène, grâce à une pipeline de data augmentation soigneusement conçue et à une stratégie pratique de mélange de vues. Ensuite, nous introduisons un apprentissage reconstructif intégré au cadre contrastif, avec une conception raffinée de masques croisés contrastifs, visant la reconstruction de la couleur des points et de la normale des surfels. Notre cadre MSC (Masked Scene Contrast) est capable d’extraire des représentations 3D plus complètes, de manière plus efficace et plus rapide. Il accélère la phase de pré-entraînement d’au moins 3 fois tout en maintenant des performances sans compromis par rapport aux approches antérieures. En outre, MSC permet également un pré-entraînement à grande échelle sur plusieurs jeux de données, ce qui améliore encore davantage les performances et atteint des résultats de fine-tuning de pointe sur plusieurs tâches ultérieures, par exemple 75,5 % de mIoU sur l’ensemble de validation de segmentation sémantique de ScanNet.