Uni3D : Exploration de la représentation 3D unifiée à grande échelle

L'élargissement des représentations pour les images ou le texte a été largement étudié ces dernières années et a conduit à des révolutions dans l'apprentissage de la vision et du langage. Cependant, les représentations évoluables pour les objets et scènes en 3D sont relativement peu explorées. Dans ce travail, nous présentons Uni3D, un modèle fondamental en 3D visant à explorer la représentation unifiée en 3D à grande échelle. Uni3D utilise un ViT (Vision Transformer) initialisé en 2D et pré-entraîné de bout en bout pour aligner les caractéristiques des nuages de points 3D avec les caractéristiques alignées image-texte. Grâce à une architecture simple et une tâche prétexte, Uni3D peut tirer parti des nombreux modèles pré-entraînés en 2D comme initialisation et des modèles alignés image-texte comme cible, débloquant ainsi le grand potentiel des stratégies d'évolution des modèles 2D dans le monde 3D. Nous avons efficacement élargi Uni3D à un milliard de paramètres, établissant de nouveaux records sur une large gamme de tâches en 3D, telles que la classification sans supervision (zero-shot), la classification à partir de quelques exemples (few-shot), la compréhension du monde ouvert et la segmentation par parties. Nous montrons également que la forte représentation offerte par Uni3D permet des applications telles que la peinture en 3D et la recherche d'images dans le monde réel. Nous croyons que Uni3D offre une nouvelle direction pour l'exploration de l'évolution et de l'efficacité des représentations dans le domaine 3D.