Command Palette
Search for a command to run...
PointCLIP V2: CLIP und GPT zur leistungsstarken 3D-Offenwelt-Lernung anregen
PointCLIP V2: CLIP und GPT zur leistungsstarken 3D-Offenwelt-Lernung anregen
Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3
Zusammenfassung
Großskalige vortrainierte Modelle haben vielversprechende Ergebnisse in offenen Welten sowohl für visuelle als auch für sprachliche Aufgaben gezeigt. Ihre Transferkapazität auf 3D-Punktwolken ist jedoch weiterhin begrenzt und nur auf die Klassifizierungsaufgabe beschränkt. In dieser Arbeit vereinen wir erstmals CLIP und GPT zu einem einheitlichen 3D-Lerner im offenen Weltbereich, der als PointCLIP V2 bezeichnet wird. Dieser Ansatz entfaltet das volle Potenzial der Modelle für die zero-shot-Klassifizierung, -Segmentierung und -Detektion von 3D-Daten. Um 3D-Daten besser mit dem vortrainierten sprachlichen Wissen auszurichten, enthält PointCLIP V2 zwei zentrale Designaspekte. Auf der visuellen Seite veranlassen wir CLIP durch ein Shape-Projektionsmodul, realistischere Tiefenkarten zu generieren, was den Domänenunterschied zwischen projizierten Punktwolken und natürlichen Bildern verringert. Auf der textuellen Seite veranlassen wir das GPT-Modell, 3D-spezifischen Text zu generieren, der als Eingabe für den textuellen Encoder von CLIP dient. Ohne irgende Trainingsdaten in 3D-Bereichen übertreffen unsere Methoden PointCLIP signifikant um +42,90 %, +40,44 % und +28,75 % Genauigkeit auf drei Datensätzen bei der zero-shot-Klassifizierung von 3D-Daten. Darüber hinaus kann V2 einfach auf few-shot-Klassifizierung von 3D-Daten, zero-shot-Segmentierung von 3D-Teilen und Detektion von 3D-Objekten erweitert werden, was unsere Fähigkeit zur einheitlichen 3D-Lernung im offenen Weltbereich unterstreicht.