Uni3D: Erkundung der einheitlichen 3D-Darstellung im großen Maßstab

In den letzten Jahren wurde die Skalierung von Repräsentationen für Bilder oder Text intensiv untersucht und hat zu Revolutionen im maschinellen Lernen von Vision und Sprache geführt. Die skalierbare Repräsentation von 3D-Objekten und -Szenen ist jedoch relativ unerforscht. In dieser Arbeit stellen wir Uni3D vor, ein 3D-Grundmodell, das die skalierte, vereinte 3D-Repräsentation erforschen soll. Uni3D verwendet ein mit 2D initialisiertes ViT (Vision Transformer), das end-to-end vortrainiert wird, um die Merkmale von 3D-Punktwolken mit den Bild-Text-Merkmalsausrichtungen zu alignen. Durch die einfache Architektur und den Vorwandsaufgaben kann Uni3D reichhaltige 2D-vortrainierte Modelle als Initialisierung nutzen und Bild-Text-ausgerichtete Modelle als Ziel, was das große Potenzial von 2D-Modellen und Skalierungsstrategien in die 3D-Welt freisetzt. Wir skalieren Uni3D effizient auf eine Milliarde Parameter und setzen neue Rekordwerte in einer breiten Palette von 3D-Aufgaben, wie z.B. Zero-Shot-Klassifikation, Few-Shot-Klassifikation, Offene-Welt-Verständnis (Open-World Understanding) und Segmentierung von Teilen (Part Segmentation). Wir zeigen, dass die starke Uni3D-Repräsentation auch Anwendungen wie 3D-Malerei und Retrieval im Wild ermöglicht. Wir glauben, dass Uni3D eine neue Richtung für die Erforschung der Skalierung und Effizienz der Repräsentation im Bereich der 3D-Domäne bereitstellt.