DiT-3D : Exploration des Transformers de Diffusion Simples pour la Génération de Formes 3D

Les récentes Diffusion Transformers (par exemple, DiT) ont démontré leur efficacité puissante dans la génération d'images 2D de haute qualité. Cependant, il reste à déterminer si l'architecture des Transformers performe aussi bien dans la génération de formes 3D, car les méthodes de diffusion précédentes en 3D utilisaient principalement l'architecture U-Net. Pour combler cette lacune, nous proposons une nouvelle Diffusion Transformer pour la génération de formes 3D, nommée DiT-3D, qui peut effectuer directement le processus de débruitage sur des nuages de points voxelisés en utilisant des Transformers simples. Comparativement aux approches existantes basées sur U-Net, notre DiT-3D est plus évolutive en termes de taille du modèle et produit des générations de bien meilleure qualité. Plus précisément, le DiT-3D adopte la philosophie de conception de DiT mais la modifie en intégrant des embeddings positionnels et par patchs 3D pour agrégater adaptivement les entrées provenant des nuages de points voxelisés. Afin de réduire le coût computationnel de l'auto-attention dans la génération de formes 3D, nous incorporons l'attention par fenêtre 3D dans les blocs Transformer, car l'allongement du token 3D résultant de la dimension supplémentaire des voxels peut entraîner un calcul important. Enfin, des couches linéaires et de dévoxélisation sont utilisées pour prédire les nuages de points débruités. De plus, notre architecture Transformer supporte un ajustement fin efficace du 2D au 3D, où le point d'étape pré-entraîné DiT-2D sur ImageNet peut améliorer considérablement les performances du DiT-3D sur ShapeNet. Les résultats expérimentaux sur le dataset ShapeNet montrent que le DiT-3D proposé atteint des performances d'avant-garde dans la génération fidèle et diversifiée de nuages de points 3D. En particulier, notre DiT-3D diminue l'exactitude du voisin le plus proche (1-Nearest Neighbor Accuracy) de la méthode d'avant-garde actuelle de 4,59 et augmente la métrique Coverage (Couverture) de 3,51 lorsqu'évalué selon la distance Chamfer.