PointCLIP V2: CLIP und GPT zur leistungsstarken 3D-Offenwelt-Lernung anregen

Großskalige vortrainierte Modelle haben vielversprechende Ergebnisse in offenen Welten sowohl für visuelle als auch für sprachliche Aufgaben gezeigt. Ihre Transferkapazität auf 3D-Punktwolken ist jedoch weiterhin begrenzt und nur auf die Klassifizierungsaufgabe beschränkt. In dieser Arbeit vereinen wir erstmals CLIP und GPT zu einem einheitlichen 3D-Lerner im offenen Weltbereich, der als PointCLIP V2 bezeichnet wird. Dieser Ansatz entfaltet das volle Potenzial der Modelle für die zero-shot-Klassifizierung, -Segmentierung und -Detektion von 3D-Daten. Um 3D-Daten besser mit dem vortrainierten sprachlichen Wissen auszurichten, enthält PointCLIP V2 zwei zentrale Designaspekte. Auf der visuellen Seite veranlassen wir CLIP durch ein Shape-Projektionsmodul, realistischere Tiefenkarten zu generieren, was den Domänenunterschied zwischen projizierten Punktwolken und natürlichen Bildern verringert. Auf der textuellen Seite veranlassen wir das GPT-Modell, 3D-spezifischen Text zu generieren, der als Eingabe für den textuellen Encoder von CLIP dient. Ohne irgende Trainingsdaten in 3D-Bereichen übertreffen unsere Methoden PointCLIP signifikant um +42,90 %, +40,44 % und +28,75 % Genauigkeit auf drei Datensätzen bei der zero-shot-Klassifizierung von 3D-Daten. Darüber hinaus kann V2 einfach auf few-shot-Klassifizierung von 3D-Daten, zero-shot-Segmentierung von 3D-Teilen und Detektion von 3D-Objekten erweitert werden, was unsere Fähigkeit zur einheitlichen 3D-Lernung im offenen Weltbereich unterstreicht.