HyperAIHyperAI

Command Palette

Search for a command to run...

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation DiT-3D: Einführung von einfachen Diffusions-Transformern für die Generierung von 3D-Formen

Mo Shentong ; Xie Enze ; Chu Ruihang ; Yao Lewei ; Hong Lanqing ; Nießner Matthias ; Li Zhenguo

Zusammenfassung

Kürzlich haben Diffusions-Transformers (z. B. DiT) ihre hohe Effektivität bei der Generierung hochwertiger 2D-Bilder nachgewiesen. Es ist jedoch noch unklar, ob die Transformer-Architektur auch bei der Generierung von 3D-Formen gleich gut abschneidet, da bisherige 3D-Diffusionsmethoden hauptsächlich die U-Net-Architektur verwendet haben. Um diese Lücke zu schließen, schlagen wir einen neuen Diffusions-Transformer für die Generierung von 3D-Formen vor, den wir DiT-3D nennen. Dieser kann den Entrauschungsprozess direkt auf vekselisierten Punktwolken mit Hilfe von einfachen Transformers durchführen. Im Vergleich zu bestehenden U-Net-Ansätzen ist unser DiT-3D skalierbarer in Bezug auf das Modellvolumen und erzeugt deutlich höhere Qualitätsstandards. Insbesondere übernimmt DiT-3D das Designkonzept von DiT, modifiziert es aber durch die Einbindung von 3D-positionellen und Patch-Einbettungen, um die Eingaben aus vekselisierten Punktwolken anpassungsfähig zu aggregieren. Um die Rechenkosten des Selbst-Aufmerksamkeitsmechanismus bei der Generierung von 3D-Formen zu reduzieren, integrieren wir 3D-Fensteraufmerksamkeit in die Transformerblöcke, da die durch die zusätzliche Dimension der Voxel verlängerte Token-Länge zu hohen Berechnungen führen kann. Schließlich werden lineare und Devekselisierungs-Schichten zur Vorhersage der entrauschten Punktwolken verwendet. Darüber hinaus unterstützt unsere Transformer-Architektur eine effiziente Feinabstimmung von 2D auf 3D, wobei ein vortrainierter DiT-2D-Checkpoint auf ImageNet die Leistung von DiT-3D auf ShapeNet erheblich verbessern kann. Experimentelle Ergebnisse am ShapeNet-Datensatz zeigen, dass der vorgeschlagene DiT-3D in der hochauflösenden und vielfältigen Generierung von 3D-Punktwolken Spitzenleistungen erzielt. Insbesondere verringert unser DiT-3D den 1-Nächsten-Nachbarn-Genauigkeitswert (1-Nearest Neighbor Accuracy) der besten bisher bekannten Methode um 4,59 und erhöht das Coverage-Maß um 3,51, wenn anhand des Chamfer-Distances bewertet.请注意,"vekselisiert" 和 "devekselisiert" 是根据上下文创造的词汇,用于描述“体素化”和“去体素化”的过程。在正式的科技文献中,建议使用更常见的术语如 "vervoxelisiert" 和 "devervoxelisiert"(尽管这些词也不常见)。如果需要进一步的专业术语确认,请提供相关领域的参考资料。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp