vor 2 Monaten

Formung einer ganzheitlichen 3D-Darstellung im kontrastiven Sprache-Bild-3D-Vortraining

Yipeng Gao; Zeyu Wang; Wei-Shi Zheng; Cihang Xie; Yuyin Zhou

Abstract

Das kontrastive Lernen ist als vielversprechendes Paradigma für die 3D-Offenwelt-Verständnis hervorgetreten, d.h. das Anpassen der Punktwolkenrepräsentation an den Bild- und Texteinbettungsraum jeweils unabhängig voneinander. In dieser Arbeit stellen wir MixCon3D vor, eine einfache, aber effektive Methode, die darauf abzielt, eine umfassende 3D-Repräsentation im kontrastiven Sprach-Bild-3D-Vortraining zu formen. Im Gegensatz zu reinen Punktwolken entwickeln wir die 3D-Objektniveau-Repräsentation aus komplementären Perspektiven, z.B. mehrsichtige gerenderte Bilder zusammen mit der Punktwolke. Anschließend führt MixCon3D ein kontrastives Sprach-3D-Lernen durch, das realweltliche 3D-Objekte umfassend abbildet und die Textanpassung stärkt. Zudem pionieren wir die erste gründliche Untersuchung verschiedener Trainingsrezepte für das Paradigma des kontrastiven 3D-Lernens, wodurch wir eine solide Baseline mit verbessertem Leistungsniveau aufbauen. Ausführliche Experimente an drei repräsentativen Benchmarks zeigen, dass unsere Methode erheblich über der Baseline liegt und die bisher beste Leistung auf dem anspruchsvollen Objaverse-LVIS-Datensatz mit 1.156 Kategorien um 5,7 % übertrifft. Die Vielseitigkeit von MixCon3D wird in Anwendungen wie Text-zu-3D-Retrieval und Punktwolken-Kaptionierung demonstriert, was seine Effizienz in verschiedenen Szenarien weiter unterstreicht. Der Quellcode ist unter https://github.com/UCSC-VLAA/MixCon3D verfügbar.