HyperAIHyperAI
vor 2 Monaten

PonderV2: Einen Weg für ein 3D-Grundmodell mit einem universellen Vortrainingsparadigma bahnen

Haoyi Zhu; Honghui Yang; Xiaoyang Wu; Di Huang; Sha Zhang; Xianglong He; Hengshuang Zhao; Chunhua Shen; Yu Qiao; Tong He; Wanli Ouyang
PonderV2: Einen Weg für ein 3D-Grundmodell mit einem universellen Vortrainingsparadigma bahnen
Abstract

Im Gegensatz zu zahlreichen grundlegenden Modellen im Bereich der natürlichsprachlichen Verarbeitung (NLP) und der 2D-Bildverarbeitung stellen die Grundlagenmodelle für 3D-Daten erheblich größere Herausforderungen dar. Dies ist vor allem auf die inhärente Datenvariabilität und Vielfalt der nachgelagerten Aufgaben zurückzuführen. In dieser Arbeit stellen wir ein neues universelles Framework für die Vortrainierung von 3D-Modellen vor, das darauf abzielt, die Erstellung effizienter 3D-Repräsentationen zu erleichtern und somit einen Weg zu 3D-Grundlagenmodellen zu bahnen. Angesichts der Tatsache, dass informative 3D-Merkmale reiche geometrische und optische Hinweise kodieren sollten, die zur Erstellung realistischer Bilder genutzt werden können, schlagen wir vor, 3D-Repräsentationen durch differenzierbares neuronales Rendering zu lernen. Wir trainieren einen 3D-Kern mit einem entwickelten volumetrischen neuronalen Renderer, indem wir gerenderte Bilder mit realen Bildern vergleichen. Bemerkenswerterweise integriert unser Ansatz den gelernten 3D-Encoder nahtlos in verschiedene nachgelagerte Aufgaben. Diese Aufgaben umfassen nicht nur hochwertige Herausforderungen wie die 3D-Erkennung und -Segmentierung, sondern auch niedrigwertige Ziele wie die 3D-Rekonstruktion und Bildsynthese, sowohl in Innenraum- als auch in Außenszenarien. Darüber hinaus zeigen wir auch die Fähigkeit auf, einen 2D-Kern mithilfe der vorgeschlagenen Methodik vorzutrainieren, wobei unsere Methode konventionelle Vortrainierungsverfahren um ein großes Maß übertrifft. PonderV2 erreicht zum ersten Mal Spitzenleistungen bei elf Benchmarks für Innen- und Außenszenarien, was seine Effektivität unterstreicht. Der Quellcode und die Modelle sind unter https://github.com/OpenGVLab/PonderV2 verfügbar.

PonderV2: Einen Weg für ein 3D-Grundmodell mit einem universellen Vortrainingsparadigma bahnen | Neueste Forschungsarbeiten | HyperAI