HyperAIHyperAI

Command Palette

Search for a command to run...

OpenDlign: Offene Welt der Punktwolkenverarbeitung mit tiefenalignierten Bildern

Ye Mao Junpeng Jing* Krystian Mikołajczyk

Zusammenfassung

Kürzlich haben offene Welt-3D-Darstellungslernmethoden, die Vision-Sprachmodelle (VLMs) verwenden, um 3D-Punktwolken mit Bild-Textinformationen zu alignen, eine überlegene 3D-Zero-Shot-Leistung gezeigt. Allerdings fehlen CAD-generierten Bildern oft Realismus und Texturvielfalt, was die Robustheit des Alignments beeinträchtigt. Des Weiteren verdeutlicht der Volumenunterschied zwischen 3D- und 2D-Vortrainingsdatensätzen die Notwendigkeit effektiver Strategien zur Übertragung der Darstellungsfähigkeiten von VLMs auf das 3D-Lernen. In dieser Arbeit stellen wir OpenDlign vor, ein neues offenes Welt-3D-Modell, das tiefenschalignierte Bilder aus einem Diffusionsmodell generiert, um eine robuste multimodale Alignment zu ermöglichen. Diese Bilder weisen aufgrund der stochastischen Natur des Diffusionsmodells eine größere Texturvielfalt als CAD-Renderings auf. Durch die Verfeinerung des Tiefenkartenprojektionspipelines und das Entwerfen von tiefenspezifischen Prompts nutzt OpenDlign das reichhaltige Wissen in vortrainierten VLMs für das 3D-Darstellungslernen mit einer effizienten Feinabstimmung. Unsere Experimente zeigen, dass OpenDlign trotz der Feinabstimmung von nur sechs Millionen Parametern auf einem begrenzten ShapeNet-Datensatz hohe Zero-Shot- und Few-Shot-Leistungen bei verschiedenen 3D-Aufgaben erzielt. Bei der Zero-Shot-Klassifikation übertreffen die Ergebnisse von OpenDlign die früheren Modelle um 8,0 % auf ModelNet40 und um 16,4 % auf OmniObject3D. Zudem verbessert die Verwendung tiefenschalignierter Bilder für multimodales Alignment konsistent die Leistung anderer state-of-the-art-Modelle.请注意,这里“法语”应该是“德语”的误写,因此我按照德语进行了翻译。如果有任何其他需求或疑问,请随时告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OpenDlign: Offene Welt der Punktwolkenverarbeitung mit tiefenalignierten Bildern | Paper | HyperAI