PonderV2 : Ouvrir la Voie aux Modèles de Fondation 3D avec un Paradigme d'Pré-entraînement Universel

Contrairement à de nombreux modèles fondamentaux en traitement du langage naturel (NLP) et en vision 2D, l'apprentissage d'un modèle fondamental 3D présente des défis considérablement plus grands. Ceci est principalement dû à la variabilité et à la diversité inhérentes des données et des tâches en aval. Dans cet article, nous présentons un nouveau cadre d'apprentissage préalable universel 3D conçu pour faciliter l'acquisition d'une représentation 3D efficace, établissant ainsi une voie vers les modèles fondamentaux 3D. Étant donné que les caractéristiques 3D informatives doivent encoder des indices géométriques et visuels riches qui peuvent être utilisés pour rendre des images réalistes, nous proposons d'apprendre des représentations 3D par le biais de rendu neuronal différentiable. Nous entraînons un tronc commun 3D avec un rendu neuronal volumétrique conçu en comparant les images rendues aux images réelles. Notamment, notre approche intègre de manière fluide l'encodeur 3D appris dans diverses tâches en aval. Ces tâches englobent non seulement des défis de haut niveau tels que la détection 3D et la segmentation, mais aussi des objectifs de bas niveau comme la reconstruction 3D et la synthèse d'images, couvrant tant les scénarios intérieurs qu'extérieurs. De plus, nous montrons également la capacité d'entraîner préalablement un tronc commun 2D en utilisant la méthodologie proposée, surpassant largement les méthodes traditionnelles d'entraînement préalable. Pour la première fois, PonderV2 atteint des performances de pointe sur 11 benchmarks intérieurs et extérieurs, ce qui souligne son efficacité. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/OpenGVLab/PonderV2.