HyperAIHyperAI
vor 2 Monaten

OpenDlign: Offene Welt der Punktwolkenverarbeitung mit tiefenalignierten Bildern

Ye Mao; Junpeng Jing; Krystian Mikolajczyk
OpenDlign: Offene Welt der Punktwolkenverarbeitung mit tiefenalignierten Bildern
Abstract

Kürzlich haben offene Welt-3D-Darstellungslernmethoden, die Vision-Sprachmodelle (VLMs) verwenden, um 3D-Punktwolken mit Bild-Textinformationen zu alignen, eine überlegene 3D-Zero-Shot-Leistung gezeigt. Allerdings fehlen CAD-generierten Bildern oft Realismus und Texturvielfalt, was die Robustheit des Alignments beeinträchtigt. Des Weiteren verdeutlicht der Volumenunterschied zwischen 3D- und 2D-Vortrainingsdatensätzen die Notwendigkeit effektiver Strategien zur Übertragung der Darstellungsfähigkeiten von VLMs auf das 3D-Lernen. In dieser Arbeit stellen wir OpenDlign vor, ein neues offenes Welt-3D-Modell, das tiefenschalignierte Bilder aus einem Diffusionsmodell generiert, um eine robuste multimodale Alignment zu ermöglichen. Diese Bilder weisen aufgrund der stochastischen Natur des Diffusionsmodells eine größere Texturvielfalt als CAD-Renderings auf. Durch die Verfeinerung des Tiefenkartenprojektionspipelines und das Entwerfen von tiefenspezifischen Prompts nutzt OpenDlign das reichhaltige Wissen in vortrainierten VLMs für das 3D-Darstellungslernen mit einer effizienten Feinabstimmung. Unsere Experimente zeigen, dass OpenDlign trotz der Feinabstimmung von nur sechs Millionen Parametern auf einem begrenzten ShapeNet-Datensatz hohe Zero-Shot- und Few-Shot-Leistungen bei verschiedenen 3D-Aufgaben erzielt. Bei der Zero-Shot-Klassifikation übertreffen die Ergebnisse von OpenDlign die früheren Modelle um 8,0 % auf ModelNet40 und um 16,4 % auf OmniObject3D. Zudem verbessert die Verwendung tiefenschalignierter Bilder für multimodales Alignment konsistent die Leistung anderer state-of-the-art-Modelle.请注意,这里“法语”应该是“德语”的误写,因此我按照德语进行了翻译。如果有任何其他需求或疑问,请随时告知。

OpenDlign: Offene Welt der Punktwolkenverarbeitung mit tiefenalignierten Bildern | Neueste Forschungsarbeiten | HyperAI