HyperAIHyperAI
vor 2 Monaten

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation DiT-3D: Einführung von einfachen Diffusions-Transformern für die Generierung von 3D-Formen

Mo, Shentong ; Xie, Enze ; Chu, Ruihang ; Yao, Lewei ; Hong, Lanqing ; Nießner, Matthias ; Li, Zhenguo
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
DiT-3D: Einführung von einfachen Diffusions-Transformern für die Generierung von 3D-Formen
Abstract

Kürzlich haben Diffusions-Transformers (z. B. DiT) ihre hohe Effektivität bei der Generierung hochwertiger 2D-Bilder nachgewiesen. Es ist jedoch noch unklar, ob die Transformer-Architektur auch bei der Generierung von 3D-Formen gleich gut abschneidet, da bisherige 3D-Diffusionsmethoden hauptsächlich die U-Net-Architektur verwendet haben. Um diese Lücke zu schließen, schlagen wir einen neuen Diffusions-Transformer für die Generierung von 3D-Formen vor, den wir DiT-3D nennen. Dieser kann den Entrauschungsprozess direkt auf vekselisierten Punktwolken mit Hilfe von einfachen Transformers durchführen. Im Vergleich zu bestehenden U-Net-Ansätzen ist unser DiT-3D skalierbarer in Bezug auf das Modellvolumen und erzeugt deutlich höhere Qualitätsstandards. Insbesondere übernimmt DiT-3D das Designkonzept von DiT, modifiziert es aber durch die Einbindung von 3D-positionellen und Patch-Einbettungen, um die Eingaben aus vekselisierten Punktwolken anpassungsfähig zu aggregieren. Um die Rechenkosten des Selbst-Aufmerksamkeitsmechanismus bei der Generierung von 3D-Formen zu reduzieren, integrieren wir 3D-Fensteraufmerksamkeit in die Transformerblöcke, da die durch die zusätzliche Dimension der Voxel verlängerte Token-Länge zu hohen Berechnungen führen kann. Schließlich werden lineare und Devekselisierungs-Schichten zur Vorhersage der entrauschten Punktwolken verwendet. Darüber hinaus unterstützt unsere Transformer-Architektur eine effiziente Feinabstimmung von 2D auf 3D, wobei ein vortrainierter DiT-2D-Checkpoint auf ImageNet die Leistung von DiT-3D auf ShapeNet erheblich verbessern kann. Experimentelle Ergebnisse am ShapeNet-Datensatz zeigen, dass der vorgeschlagene DiT-3D in der hochauflösenden und vielfältigen Generierung von 3D-Punktwolken Spitzenleistungen erzielt. Insbesondere verringert unser DiT-3D den 1-Nächsten-Nachbarn-Genauigkeitswert (1-Nearest Neighbor Accuracy) der besten bisher bekannten Methode um 4,59 und erhöht das Coverage-Maß um 3,51, wenn anhand des Chamfer-Distances bewertet.请注意,"vekselisiert" 和 "devekselisiert" 是根据上下文创造的词汇,用于描述“体素化”和“去体素化”的过程。在正式的科技文献中,建议使用更常见的术语如 "vervoxelisiert" 和 "devervoxelisiert"(尽管这些词也不常见)。如果需要进一步的专业术语确认,请提供相关领域的参考资料。

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation DiT-3D: Einführung von einfachen Diffusions-Transformern für die Generierung von 3D-Formen | Neueste Forschungsarbeiten | HyperAI