vor 2 Monaten

PointCLIP: Verstehen von Punktwolken durch CLIP

Zhang, Renrui ; Guo, Ziyu ; Zhang, Wei ; Li, Kunchang ; Miao, Xupeng ; Cui, Bin ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng

Abstract

Kürzlich haben zero-shot und few-shot Lernen durch Kontrastives Sehen-Sprache-Vortraining (CLIP) inspirierende Leistungen bei der 2D-Bilderkennung gezeigt, wobei gelernt wird, Bilder mit ihren entsprechenden Texten in offenen Vokabularszenarien abzugleichen. Allerdings ist es bisher wenig erforscht, ob CLIP, das anhand von groß angelegten 2D-Bild-Text-Paaren vortrainiert wurde, auf die 3D-Erkennung übertragen werden kann. In dieser Arbeit identifizieren wir eine solche Einstellung als machbar durch den Vorschlag von PointCLIP, das eine Abstimmung zwischen CLIP-kodierten Punktwolken und 3D-Kategorietexten durchführt. Speziell kodieren wir eine Punktwolke, indem wir sie ohne Rendering in mehrere Ansichtstiefenkarten projizieren und die ansichtsbasierten zero-shot Vorhersagen aggregieren, um Wissen von 2D auf 3D zu transferieren. Darüber hinaus entwickeln wir einen interansichtlichen Adapter, um das globale Merkmal besser zu extrahieren und das few-shot Wissen, das aus 3D gelernt wurde, adaptiv in CLIP integriert zu werden, das in 2D vortrainiert wurde. Durch das Feinjustieren des leichten Adapters in few-shot Szenarien kann die Leistungsfähigkeit von PointCLIP erheblich verbessert werden. Zudem beobachten wir die komplementäre Eigenschaft zwischen PointCLIP und klassischen 3D-supervisierten Netzen. Durch einfache Ensemblemethoden steigert PointCLIP die Leistungsfähigkeit der Baseline und übertrifft sogar state-of-the-art Modelle. Daher stellt PointCLIP eine vielversprechende Alternative für effektives Verständnis von 3D-Punktwolken unter geringem Ressourcenverbrauch und Datenregime dar. Wir führen umfassende Experimente auf weit verbreiteten Datensätzen wie ModelNet10, ModelNet40 und dem anspruchsvollen ScanObjectNN durch, um die Effektivität von PointCLIP zu demonstrieren. Der Code ist unter https://github.com/ZrrSkywalker/PointCLIP veröffentlicht.